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Preface 


Python is rightfully viewed as a general purpose language, well suited for web development, 
System administration, and general purpose business applications. Is has earned this reputation well 
by powering web sites such as YouTube, installation tools integral to Red Hat’s operating system, and 
large corporate IT systems from cloud cluster management to investment banking. Python has also 
established itself firmly in the world of scientific computing covering a wide range of applications 
from seismic processing for oil exploration to quantum physics. This breadth of applicability is 
significant because these seemingly disparate uses often overlap in important ways. Applications that 
can easily connect to databases publish information to the web, and efficiently carry out complex 
calculations are now critical in many industries. Python's primary strength is that it allows developers 
to build such tools quickly. 

Python's scientific computing roots actually go quite deep. Guido van Rossum created the 
language while at CWIL, the Center for Mathematics and Computer Science, in the Netherlands. As 
interest developed outside the center, others began to contribute. The first several Python workshops, 
starting in 1994, were held an ocean away at scientific institutions such as NIST (National Institute of 
Instruments and Technology), the US Geological Society, and LLNL (Lawrence Livermore National 
Laboratories), all science centric institutions. At the time, Python 1.0 had recently been released and 
the attendees were just beginning to hammer out the design of its mathematical tools. A decade and a 
half later, it is gratifying to see how far we have come both in the amazing capabilities of the tool set 
and the diversity of the community. It is somehow fitting that the first comprehensive book (that I 
know of) covering the primary scientific computing tools for Python is composed and published, 
another ocean away, in Chinese. Looking forward a decade and a half, I can hardly wait to see what 
we will all build together. 

Guido, himself, was not a scientist or engineer. He sat squarely in the computer science branch of 
CWI and created Python to ease the pain of building system administration tools for the Amoeba 
operating System. At the time, the tools were being written in C. Python was to be the tool that 
“bridged the gap between shell scripting and C.” Operating System tools are not even in the same 
neighborhood as matrix inversions or fast Fourier transforms, but, as the language emerged, scientists 
around the world were some of its earliest adopters. Guido had succeeded in creating an elegantly 
expressive language that coupled nicely with their existing C and Fortran code. And, in Guido, they 
had a language designer willing to listen and add critical features, such as complex numbers, 
Specifically for the scientific community. With the creation of Numeric, the precursor to NumPy, 
Python gained a fast and powerful number crunching tool that solidified Python s role as a leading 


computational language in the coming decades. 
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For some, the term “scientific programming” conjures up visions of intricate algorithms described 
from “Numerical Recipes in C” or forged in late night programming sessions by graduate students. 
But the reality is the domain encompasses a much wider range of programming tasks from low level 
algorithms to GUI development with advanced graphics. This latter topic is too often underestimated 
in terms of importance and effort. Fortunately, Ruoyu Zhang has done us the service of covering all 
facets of the scientific programming in this book. Beginning with the foundational Numpy library the 
algorithmic toolboxes in SciPy he provides the fundamental tools for any scientific application. He 
then aptly covers the 2D plotting and 3D visualization libraries provided by matplotlib, chaco, and 
mayavi. Application and GUI development with Traits and Traits UI, and coupling to legacy C 
libraries through Cython, Weave, ctypes, and SWIG are well covered as well. These core tools are 
rounded out by coverage of symbolic mathematics with SymPy and various other useful topics. 

It’s truly gratifying to see all of these topics aggregated into a single volume. It provides a 
one-stop shop that can lead you from the beginning steps to a polished and full featured application for 
analysis and Simulation . 


Eric Jones 
2011/12/8 


Python 理所当然 地 被 视 为 

的 业务 应 用 程序 。 
安装 工具 以 及 从 云 管理 到 投资 银行 等 大 型 企业 的 全 
声誉 。Python 还 在 科学 计算 领域 建立 了 牢固 的 基础 ， 


门 通 / 
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的 程序 设计 语言 ， 非常 适合 于 网 站 玫 
它 为 诸如 YouTube 这 样 的 网 站 系统 、Red Hat 操作 系统 品 


fF 发 、 系 统管 理 以 及 
FP 不 可 或 缺 的 
系统 提供 技术 支持 ， 从 而 赢得 了 如 此 高 的 
履 盖 了 从 石油 勘探 的 地 震 数据 处 理 到 量子 


妓 理 等 范围 广泛 的 应 用 场景 。Python 这 种 广泛 的 适 


日 性 在 于 ， 这 些 看 似 不 同 的 应 用 领域 通常 在 


某 些 重要 的 
程序 对 于 
样 的 工具 。 
实际 - 
兰 阿 姆 

发 ，1 


-许多 行业 是 至 关 习 


EE 要 的 , 而 Python 最 主 


pe 
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i 特 丹 的 国家 数学 和 计算 机 科学 
3 是 很 快 其 他 人 也 开始 为 之 做 出 贡献。 


f 究 学 会 ( 
从 1994 


方面 是 重合 的 。 易 于 与 数据 库 连 接 、 在 网 络 上 发 布 信息 六 
要 的 长 处 就 在 于 


上 ，Python 与 科学 计算 的 关系 源远流长 。 二 


高 效 地 进行 复杂 计算 的 应 


它 能 让 开发 者 迅速 地 创建 这 


i 多 。 范 罗 苏 姆 创建 这 门 语言 ， 还 是 在 他 在 
CWD 的 时 候 。 当 时 只 是 作为 “课余 ”的 开 


不 
年 开始 的 头 儿 次 Python 研讨 会 ， 都 是 在 大 


洋 彼岸 的 科研 机 构 举行 的 。 例 如 国家 标准 技术 研究 所 (NIST)、 美 国 地 质 学 会 以 及 劳伦斯 利 福 摩 


验 室 LLNL)， 所 有 这 些 都 是 以 科 丰 
们 就 已 经 开始 打造 Python 的 数学 计算 工具 。 


[为 中 心 的 机 构 。 当 时 Python 1.0 刚刚 发 布 ， 
10 多 年 过 去 了 ， 我 们 欣喜 


与 会 者 


也 看 到 ， 我 们 在 开发 具 


有 惊人 能 力 的 工具 集 以 及 建设 多 彩 的 社区 方面 做 出 了 如 此 多 的 成 绩 。 很 合 时 宣 的 是 ， 就 我 所 知 


的 第 一 本 涵盖 了 Python 的 主要 科学 计算 工 


吉 多 他 本 人 并 不 是 科学 家 或 工程 师 。 他 在 CWI 


(Amoeba) 操 作 系统 创 建 系统 管理 工具 的 痛苦 ， 他 创建 了 Python。 当 时 那些 系统 管理 - 
C 语言 编写 的 。 于 是 Python 就 成 了 填补 shell 脚本 和 C 语言 之 间 空 白 的 - 
计算 逆 矩 阵 或 快速 傅立叶 变换 是 完全 不 同 的 领域 , 但 是 从 Python 诞生 开始 , 世界 各 : 


FA 


学 家 就 成 了 它 最 早期 的 采用 者 。 
的 、 具 


吉 多 成 功 地 创建 了 


获得 了 一 个 高 效 且 强大 的 数值 运算 了 
算 语言 的 地 位 。 

对 
杂 算 法 ,或 是 研究 4 
从 底层 的 算法 设计 


E 们 在 深夜 
1 到 具有 高 级 绘图 功能 世 
运 的 是 在 本 书 中 ， 作 者 为 我 们 介绍 了 科学 计 
法 工具 库 的 基础 开始 ， 介 绍 了 任何 科学 计算 应 
绍 了 二 维 绘图 
程序 和 界 
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Cython、Weave、ctypes 


的 综合 性 著作 , 在 另 一 个 海洋 之 遥 的 中 
版 了 。 展 望 今后 的 十 几 年 ， 我 迫不及待 地 想 看 到 我 人 


有 优雅 表现 力 的 程序 语言 。 并 且 ， 吉 多 是 一 位 愿意 听取 建议 并 添 力 
师 , 例如 支持 复数 就 是 专门 针对 科学 领域 的 。 随 着 NumPy 的 前 身 一 Numeric 
[有 具 ， 它 巩固 了 在 未 来 儿 十 年 中 ，Python 作为 领先 的 科学 计 


于 一 些 人 来 说 ，“ 科 学 计算 编程 ”会 让 人 联想 起 Numerical Recipes inC 中 
P 努 力 打造 程序 的 场景 。 但 是 真实 情况 所 涵盖 的 范围 
户 界面 开发 。 而 后 者 
上 算 编 程 所 需 的 各 个 方面 。 
用 程序 所 需 的 基本 工具 。 然 后 ， 本 书 和 
以 及 三 维 可 视 化 库 一 一 matplotlib、Chaco、Mayavi。 


司 编 营 并 出 
] 能 共同 创建 出 怎样 的 未 来 。 
的 计算 机 科学 部 门 时 ， 为 了 缓解 为 阿 米 巴 
工具 都 是 用 
- 具 。 操 作 系统 工具 与 
弛 的 许多 科 
Fortran 代入 合 
1 关键 功能 的 语言 
的 诞生 ，Python 


- 门 能 与 他 们 的 C 和 


描述 的 那些 复 

更 广泛 一 一 
下 要 性 却 常常 被 包 视 了 。 幸 
从 NumPy 库 和 SciPy 算 
民 恰 当地 介 
Traits 和 TraitsUI 进行 应 
库 相互 结合 等 


后 口 
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的 本 
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和 SWIG 等 与 传统 的 C 语言 
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内 容 在 书 中 也 有 很 好 的 介绍 。 除 了 这 些 核心 的 工具 之 外 ， 本 书 还 介绍 了 使 用 SymPy 进行 数学 
符号 运算 以 及 其 他 的 各 种 有 用 的 主题 。 

所 有 这 些 主题 都 被 汇编 到 一 本 书 中 真是 一 件 令 人 欣喜 的 事情 。 本 书 所 提供 的 一 站 式 服务 ， 
能 够 指导 读者 从 最 初 的 入 门 直到 创建 一 个 漂亮 的 、 全 功能 的 分 析 与 模拟 应 用 程序 。 


Eric Jones 
2011 年 12 月 8 
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Python 科学 计算 环境 的 安装 与 简介 


1.1 Python 简介 


Python 是 一 种 解释 型 、 面 向 对 象 、 动态 的 高 级 程序 设计 语言 。 自从 20 世纪 
语言 诞生 至 今 ， 它 逐渐 被 广泛 应 用 于 处 理 系 统管 理 任务 和 开发 Web 系统 。 目 
为 最 受 欢迎 的 程序 设计 语言 之 一 。 

由 于 Python 语言 的 简洁 、 易 读 以 及 可 扩展 性 ， 在 国外 用 Python 做 科学 计 
益 增 多 ， 一 些 知名 大 学 已 经 采用 Python 教授 程序 设计 课程 。 众 多 开源 的 科学 讨 


90 年 代 初 Python 
前 Python 已 经 成 


上 算 的 研究 机 构 日 
上 算 软 件 包 都 提供 


了 Python 的 调用 接口 ,例如 计算 机 视觉 库 OpenCV、 三 维 可 视 化 库 VTK、 复杂 网 络 分 析 库 igraph 
等 ,而 Python 专用 的 科学 计算 扩展 库 就 更 多 了 ,例如 三 个 十 分 经 典 的 科学 计算 扩展 库 : NumPy、 


SciPy 和 matplotlib, 它们 分 别 为 Python 提供 了 快速 数组 处 理 、 数 值 运算 以 及 绘图 
语言 及 其 众多 的 扩展 库 所 构成 的 开发 环境 十 分 适合 工程 技术 、 科 研 人 员 处 理 


功能 ,因此 Python 


关 验 数据 、 制 作 图 


表 ， 甚 至 开发 科学 计算 应 用 程序 。 近 年 随 着 数据 分 析 扩 展 库 Pandas、 机 器 学 习 扩展 库 scikitleam 
以 及 IPython Notebook 交互 环境 的 日 益 成 熟 ，Python 也 逐渐 成 为 数据 分 析 领 域 的 首选 工具 。 
说 起 科学 计算 ， 首 先 会 被 提 到 的 可 能 是 MATLAB 。 然 而 除了 MATLAB 的 一 些 专业 性 很 强 


的 扩展 库 。 和 MATLAB 相 比 ， 用 Python 做 科学 计算 有 如 下 优点 : 


e 首先 ，MATLAB 是 一 款 商用 软件 ， 并 且 价 格 不 菲 。 而 Python 完全 免费 ， 众 多 开源 的 科 


学 计算 库 都 提供 了 Python 的 调用 接口 。 用 户 可 以 在 任何 计算 机 上 免费 安装 Python 及 其 
绝 大 多 数 扩展 库 。 


e 其 次 , 与 MATLAB 相 比 ，Python 是 一 门 更 易学 、 更 严谨 的 程序 设计 语言 。 它 能 让 用 户 


编写 出 更 易 读 、 更 易 维护 的 代码 。 
e 最 后 ，MATLAB 主要 专注 于 工程 和 科学 计算 。 然 而 即使 在 计算 领域 ， 


也 经 常会 遇 到 文 


件 管理 、 界 面 设计 、 网 络 通信 等 各 种 需求 。 而 Python 有 着 丰富 的 扩展 库 ， 可 以 轻易 完 
成 各 种 高 级 任务 ， 开 发 者 可 以 用 Python 实现 完整 应 用 程序 所 需 的 各 种 功能 。 


1.1.1 Python2 还 是 Python3 


自从 2008 年 发 布 以 来 ，Python3 经 历 了 5 个 小 版 本 的 更 迭 ， 无 论 是 语法 还 是 标准 库 都 发 


得 十 分 成 熟 。 许 多 重要 的 扩展 库 也 已 经 逐渐 同时 支持 Python2 和 Python3。 但 是 


可 两 


于 Python3 不 


溃 当 糖 半 入 说 UoUMd 


ne 
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下 兼容 ， 目 前 大 多 数 开 发 者 仍然 在 生产 环境 中 使 用 Python 2.7。 在 PyCon2014 大 会 上 ，Python 
之 父 宣布 Python 2.7 的 官方 支持 延长 至 2020 年 。 因 此 本 书 仍然 使 用 Python 2.7 作为 开发 环境 。 

在 本 书 涉及 的 扩展 库 中 ，IPython、NumPy、SciPy、matplotib、Pandas、SymPy、Cython、 
Spyder 和 OpenCV 等 都 已 经 支持 Python 3， 而 Traits、TraitsUI[、TVTK、Mayavi 等 扩展 库 则 尚未 
着 手 Python 3 的 移植 。 虽 然 一 些 新 兴 的 三 维 可 视 化 扩展 库 正 朝 着 替代 Mayavi 的 方向 努力 , 但 目 
前 Python 环境 中 尚未 有 能 替代 VTK 和 Mayavi 的 专业 级 别 的 三 维 可 视 化 扩展 库 ， 因 此 本 书 仍 保 
留 第 1 版 中 相关 的 章节 。 
1.1.2 ”开发 环境 

和 MATLAB 等 商用 软件 不 同 ，Python 的 众多 扩展 库 由 许多 社区 分 别 维护 和 发 布 ， 因 此 要 
一 一 将 其 收集 齐全 并 安装 到 计算 机 中 是 一 件 十 分 耗费 时 间 和 精力 的 事情 。 本 节 介绍 两 个 科学 计 
算 用 的 Python 集成 软件 包 。 读 者 只 需要 下 载 并 执行 一 个 安装 程序 ， 就 能 安装 好 本 书 涉 及 的 所 有 
扩展 库 。 

1. WinPython 


https://winpython.github.io/ 
WinPython 的 下 载 地 址 。 


Winpython 只 能 在 Windows 系统 中 运行 ， 其 安装 包 不 会 修改 系统 的 任何 配置 ， 各 种 扩 
展 库 的 用 户 配 秆 文件 也 保存 在 WinPython 的 文件 类 之 下 。 因 此 可 将 整个 运行 环境 复制 到 U 
航 中 ， 在 任何 安装 了 Windows 操作 系统 的 计算 机 上 运行 。WinPython 提供 了 一 个 安装 扩展 
库 的 Winpython Control Panel 界面 程序 ， 通 过 它 可 以 安装 Python 的 各 种 扩展 库 。 可 以 通过 
F 面 的 链接 下 载 已 经 编 译 好 的 二 进 制 扩展 库 安装 包 ， 然 后 通过 Winpython Control Panel 来 


http:/wwwlfanciedu/_gohikeypythonlibs/ 
从 该 网 址 可 以 下 载 各 种 Python 扩展 库 的 Windows 安装 文件 。 


图 1-1 显示 了 通过 WinPython Control Panel 安装 本 书 介绍 的 几 个 扩展 库 。 通 过 “Add 
packages” 按 钮 添加 扩展 库 的 安装 程序 之 后 ， 单 击 “Install packages” 按 钮 一 次 性 安装 勾 选 的 
所 有 扩展 库 。 
虽然 手动 安装 扩展 库 有 些 麻烦 ， 不 过 这 种 方式 适合 没有 网 络 连接 或 者 网 速 较 慢 的 计算 机 。 
例如 在 笔者 的 工作 环境 中 ， 有 大 量 的 实验 用 计算 机 不 允许 连接 互联 网 。 


Python 27 32bit CSWinPython-32bi-27924python-273 


© hstall/uperade packages | Uninstallpackages 


Action Name Version Description 


610 。 Open-source software system £.. 


4.4.0 
Install 辑 opencv_python 2.4.11 
Install 加 pyface 4.4.0 
Install 国 traits 4.5.0 
Install 国 traitsui 44.0 


hdd packages | [站 Remove | [@ (Un)Select all | [MW Install packages 


图 1-1 通过 WinPython Control Panel 安装 扩展 库 
如 果 读 者 从 WinPython 的 官方 网 站 下 载 WinPython 开发 环境 ， 为 了 运行 本 书 的 所 有 实例 程 
序 ， 还 需要 安装 如 下 扩展 库 : 
® VTK、Mayavi、pyface、Traits 和 TraitsUI: 在 图 形 界面 以 及 三 维 可 视 化 章节 需要 用 到 这 


些 扩展 库 。 
e OpenCV: 在 图 像 处 理 章节 需要 用 到 该 扩展 库 。 
2. Anaconda 


https://store.continuum.io/cshop/anaconda/ 
Anaconda 的 下 载 地 址 。 


由 CONTINUUM 开发 的 Anaconda 开发 环境 支持 Windows、Linux 和 Mac OSX。 安 装 时 会 
提示 是 否 修改 PATH 环境 变量 和 注册 表 , 如 果 和 希望 手工 激活 Anaconda 环境 , 请 取消 选择 这 两 个 
选项 。 
在 命令 行 中 运行 安装 路 径 之 下 的 批 处 理 文件 Scriptsanaconda.bat 以 启动 Anaconda 环境 ， 然 
后 就 可 以 输入 表 1-1 中 的 conda 命令 来 管理 扩展 库 了 。 


表 1-1 conda 命令 及 说 明 


2 UoUMKd 


命令 说 明 
conda list 列 出 所 有 的 扩展 库 
conda update 扩展 库 名 升级 扩展 库 
condainstall 扩展 库 名 安装 扩展 库 


conda search 模板 搜索 符合 模板 的 扩展 库 


兽 济 糖 字 性 绽 


辟 刷 洲 冲 器 


> 


溃 当 糖 半 柱 间 UoUMd 


疏 


》 豆 山 涪 烛 
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conda 命令 本 身 也 是 一 个 扩展 库 ， 因 此 通常 在 执行 上 述 命 令 之 前 ， 可 以 先 运行 condaupdate 
conda 来 尝试 升级 到 最 新 版 本 。conda 默认 从 官方 频道 下 载 扩展 库 ， 如 果 未 找到 指定 的 扩展 库 ， 
还 可 以 使 用 anaconda 命令 从 Anaconda 网 站 的 其 他 频道 搜索 指定 的 扩展 库 。 例 如 下 面 的 命 
于 搜索 可 使 用 conda 安装 的 OpenCV 扩展 库 : 


binstar search -t conda opencv 


找到 包含 目标 扩展 库 的 频道 之 后 ， 输 入 下 面 的 命令 来 从 指定 的 频道 rsignell 安装 : 


conda install opencv-python -c rsignell 


还 可 以 使 用 pip 命令 安装 下 载 的 扩展 库 文件 ， 例 如 从 前 面 介绍 的 网 址 下 载 文件 
opencv_python-2.4.11-cp27-none-win32.whl 之 后 ， 切 换 到 该 文件 所 在 的 路 径 并 输入 pip install 
opencv_python-2.4.11-cp27-none-win32.whl 即 可 安装 该 扩展 库 。 

3. 使 用 附 赠 光 盘 中 的 开发 环境 


本 书 的 附 赠 光盘 中 包含 了 能 运行 本 书 所 有 实例 程序 的 WinPython 压缩 包 : winpython.zip。 
请 读者 将 之 解压 到 C 盘 根 目录 之 下 ， 该 压缩 包 会 创建 C\WinPython-32bit-2.7.9.2 目录 。 
然后 将 本 书 附 赠 光 盘 中 提供 的 代码 目录 scipybook2 复制 到 计算 机 的 硬盘 中 ， 为 了 保证 代码 
正常 运行 ， 请 确保 该 代码 目录 的 完整 路 径 中 不 包含 空格 和 中 文字 符 。 在 scipybook2 中 包含 三 个 
子 目录 : 
e@ codes: 其 中 的 scpy2 子 目录 下 包含 本 书 提供 的 示例 程序 , 该 示例 程序 库 采 用 包 的 形式 管 
理 ， 因 此 需要 将 它 添加 进 Python 的 包 搜索 路 径 环 境 变量 PYTHONPATH 中 才能 正确 运 
行 scpy2 中 的 示例 程序 。 在 scipybook2 目录 下 的 批 处 理 文件 run_console.bat 和 
run_notebook.bat 中 会 自动 设置 该 环境 变量 。 
e@ ”notebooks: 本 书 完全 使 用 IPython Notebook 编写 ， 该 目录 下 的 Notebook 文件 中 保存 了 本 
书 所 有 章节 的 标题 以 及 示例 代码 。 读 者 可 以 通过 mn_notebook.bat 批 处 理 文件 启动 本 书 
的 编写 环境 。 为 了 保护 本 书 版 权 ， 除 本 章 之 外 的 其 他 所 有 章节 的 文字 解说 内 容 都 已 被 
删除 。 
e settings: 其 中 保存 了 各 种 扩展 库 的 配置 文件 。 这 些 文 件 会 保存 在 HOME 环境 变量 所 设 
署 的 目录 之 下 ,默认 值 为 CNUsers\ 用 户 名 。 为 了 避免 与 读者 系统 中 的 配置 文件 发 生 冲 突 ， 
在 批 处 理 文件 中 将 HOME 环境 变量 修改 为 该 settings 目录 。 
为 了 确认 开发 环境 正确 安装 ， 请 读者 运行 un_console.bat 批 处 理 文件 ， 然 后 在 命令 行 中 执 
行 python -m scpy2， 并 检查 是 否 打印 出 开发 环境 中 各 个 扩展 库 的 版 本 信息 。 


如 果 读者 将 winpython.zip 文件 解压 到 别 的 路 径 之 下 ， 可 以 修改 envbat 文 件 中 第 二 行 中 
图 ”的 路 径 。 


!python -m scpy2 

Welcome to Scpy2 

Python: 2.7.9 

executable: C:\Winpython-32bit-2.7.9.2\python-2.7.9\python.exe 


Cython 922 

matplotlib LM.3 
numpy-MKL Hw 
opencv_python 2 11 
pandas : 9.16.6 
scipy 015 
sympy 1 


1.1.3 ”集成 开发 环境 (IDE) 


本 节 介 绍 两 个 常用 的 Python 集成 开发 环境 ， 它 们 能 实现 自动 完成 、 定 义 跳 转 、 自 动 重 构 、 
调试 等 常用 的 IDE 功能 ， 并 集成 了 IPython 的 交互 环境 以 及 查看 数组 、 绘 制图 表 等 科学 计算 开 
发 中 常用 的 功能 。 熟 练 使 用 这 些 工 具 能 极 大 地 提高 编程 效率 。 


1. Spyder 


Spyder 是 由 WinPython 的 作者 开发 的 一 个 简单 的 集成 开发 环境 ， 可 通过 WinPython 的 安装 
目录 下 的 Spyderexe 来 运行 。 如 果 读 者 希望 在 本 书 的 开发 环境 中 运行 Spyder， 可 以 在 
run_console.bat 开启 的 命令 行 中 输入 spyder 命令 。 

和 其 他 的 Python 开发 环境 相 比 , 它 最 大 的 优点 就 是 模仿 MATLAB 的 “工作 空间 ”的 功能 ， 
可 以 很 方便 地 观察 和 修改 数组 的 值 。 图 1-2 是 Spyder 的 界面 截图 。 


Se Value 
as rll 1 1 | 


(510, 510) 到 
o 
Co 天 


ooo) 


[ 
CR | Var eb expiorer 
File explorer 


图 1-2 在 Spyder 中 执行 图 像 处 理 的 程序 


Spyder 的 界面 由 许多 泊 坞 窗口 构成 ,用户 可 以 根据 自己 的 喜好 调整 它们 的 位 置 和 大 小 。 当 
多 个 窗口 在 一 个 区 域 中 时 ， 将 使 用 标签 页 的 形式 显示 。 例 如 在 图 1-2 中 ， 可 以 看 到 “Editor”、 


于 帐 溢 UoyMd 


祠 圳 灯 洋 烛 否 总 浊 


六 可 吓 漳 间 呈 茸 妆 名 半 居间 uouhd 
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开 
nn 


“Variable explorer”、“File explorer”、“]Python console” 等 窗口 。 在 View 菜单 
和 否 显示 这 些 窗口 。 表 1-2 中 列 出 了 Spyder 的 主要 窗口 及 其 作用 : 


表 1-2 Spyder 的 主要 窗口 及 其 作用 
窗口 名 功能 


可 以 设置 是 


Editor 编辑 程序 ， 以 标签 页 的 形式 编辑 多 个 程序 文件 


Ga 在 别 的 进程 中 运行 的 Python 控制 台 
Variableexplorer | 。 显示 Python 控制 台中 的 变量 列表 

Obijectinspector 。 | 。 查看 对 象 的 说 明文 档 和 源 程序 

Fle explorer 文件 浏览 器 ， 用 来 打开 程序 文件 或 者 切换 当前 路 径 


按 F5 键 将 在 另外 的 控制 台 进 程 中 运行 当前 编辑 器 中 的 程序 。 第 一 次 运行 程序 时 ， 将 弹 
一 个 如 图 1-3 所 示 的 运行 配置 对 话 框 。 在 此 对 话 框 中 可 以 对 程序 的 运行 进行 如 下 配置 : 


Select a run configuration: 
[Ci¥Users¥RY¥Dropbox¥scipybook 2¥codes¥scpy2¥intro¥spyder i | 


nterpreter 
® Execute in current Python or IPython interpreter 
Execute in a new dedicated Python interpreter 
Execute in an external System terminal 
General settines 
] Command lne optione: 
TH] Workine directory yookNcodesyscpy2Wintro [大 | 


Dedicated Python interpreter 
Int n int 


图 Aways show this dialog on a first file run 


Cm Cm) 
图 1-3 运行 配置 对 话 框 


e@ Command line options: 输入 程序 的 运行 参数 。 


e Working directory: 输入 程序 的 运行 路 径 。 


H 
D 


e@ Execute in current Python or IPython interpreter: 在 当前 的 Python 控制 台中 运行 程序 。 程 序 


如 | 


程序 的 启动 速度 较 快 。 


可 以 访问 此 控制 台中 的 所 有 全 局 对 象 ， 控 制 台中 已 经 载 入 的 模块 不 需要 重新 载 入 ， 因 


® Execute in a new dedicated Python interpreter: 新 开 一 个 Python 控制 台 并 在 其 中 运行 程序 ， 


行 的 情况 。 当 选择 此 项 时 , 还 可 以 勾 选 “Interact with the Python interpreter after execution ”， 


程序 的 启动 速度 较 慢 ， 但 是 由 于 新 控制 台中 没有 多 余 的 全 局 对 象 ， 因 此 更 接近 真实 运 


这 样 当 程序 结束 运行 之 后 ， 控 制 台 进程 继续 运行 ， 可 以 通过 它 查 看 程序 运行 之 后 的 所 


有 全 局 对 象 。 此 外 ， 还 可 以 在 “Command line options” 中 输入 新 控制 台 的 启动 参数 。 
e@ ”Execute in an external System terminal: 选择 该 选项 则 完全 脱离 Spyder 运行 程序 。 


运行 配置 对 话 框 只 会 在 第 一 次 运行 程序 时 出 现 ， 如 果 想 修改 程序 的 运行 配置 ， 可 以 按 F6 
键 来 打开 运行 配置 对 话 框 。 

控制 台中 的 全 局 对 象 可 以 在 “Variable explorer” 窗 口中 找到 。 此 窗口 支持 数值 、 字 符 串 、 
元 组 、 列 表 、 字 和 典 以 及 NumPy 的 数组 等 对 象 的 显示 和 编辑 。 图 14( 左 ) 是 “Variable explorer” 窗 
的 截图 ， 列 出 了 当前 运行 环境 中 的 变量 名 、 类 型 、 大 小 及 其 内 容 。 右 键 单 击 变量 名 ， 会 弹出 
对 此 变量 进行 操作 的 菜单 。 在 菜单 中 选择 Edit 选项 ， 弹 出 图 1-4( 右 ) 所 示 的 数组 编辑 窗口 。 此 编 
辑 窗口 中 的 单元 格 的 背景 颜色 直观 地 显示 了 数值 的 大 小 。 当 有 多 个 控制 台 运 行 时 ，“ Variable 
explorer” 窗 口 显示 当前 控制 台中 的 全 局 对 象 。 


图 14 使 用 “Variable explorer” 查 看 和 编辑 变量 内 容 


选择 菜单 中 的 Plot 选项， 将 弹出 如 图 1-5 所 示 的 绘图 窗口 。 在 绘图 窗口 的 工具 栏 中 单 击 最 
右边 的 按钮 , 将 弹出 一 个 编辑 绘图 对 象 的 对 话 框 。 图 中 使 用 此 对 话 框 修改 了 曲线 的 颜色 和 线 宽 。 


是 i 国 的 晤 守 A Curve 


Title 
Line 


Style [—Sold Iine 了 


Color red [LL] 


Width 10 


Parameters... 
Export data... 
Edit data... 
Center items 
Remove 


到 Grid-. 
WL Axes style.. 


图 15 在 “Variable explorer” 中 将 数组 绘制 成 曲线 
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Spyder 的 功能 比较 多 ， 这 里 仅 介绍 一 些 常用 的 功能 和 技巧 : 

e 默认 配置 下 ，“Variableexplorer” 中 不 显示 大 写字 母 开头 的 变量 ， 可 以 单 击 工具 栏 中 的 
配置 按钮 (最 后 一 个 按钮 )， 在 菜单 中 取消 “Exclude capitalized references” 的 勾 选 状态 。 

。 在 控制 台中 , 可 以 按 Tab 键 自动 补 全 。 在 变量 名 之 后 输入 “?”, 可 以 在 “Objectinspector” 
窗口 中 查看 对 象 的 说 明文 档 。 此 窗口 的 Options 菜单 中 的 “Show source” 选 项 可 以 开启 
显示 函数 的 源 程序 。 

e 可 以 通过 “Working directory” 工 具 栏 修改 工作 路 径 ， 用 户 程序 运行 时 ， 将 以 此 工作 路 
径 作为 当前 路 径 。 只 需要 修改 工作 路 径 ， 就 可 以 用 同一 个 程序 处 理 不 同文 件 夹 下 的 数 
据 文件 。 

e 在 程序 编辑 窗口 中 按 住 Cul 按键 ， 并 单 击 变量 名 、 函 数 名 、 类 名 或 模块 名 ， 可 以 快速 
跳 转 到 其 定义 位 置 。 如 果 是 在 别 的 程序 文件 中 定义 的 ， 将 打开 此 文件 。 在 学 习 一 个 新 
的 模块 库 的 用 法 时 ， 经 常 需 要 查看 模块 中 的 某 个 函数 或 某 个 类 是 如 何 定义 的 ， 使 用 此 
功能 可 以 帮助 我 们 快速 查看 和 分 析 各 个 库 的 源 程序 。 

2. PyCharm 


PyCharm 是 由 JetBrains 开发 的 集成 开发 环境 ， 具 有 项 目 管理 、 代 码 跳 转 、 代 码 格式 化 、 自 
动 完成 、 重 构 、 自 动 导入 、 调 试 等 功能 。 虽 然 专 业 版 价格 比较 高 ， 但 是 提供 的 免费 社区 版 具有 
开发 Python 程序 所 需 的 所 有 功能 。 如 果 读 者 需要 开发 较 大 的 应 用 程序 ， 使 用 它 可 以 提高 开发 效 
率 ， 保 证 代码 的 质量 。 


http://www.jetbrains.com/pycharm 
PyCharm 的 官方 网 站 。 


如 果 读 者 使 用 本 书 提供 的 便携 WinPython 版 本 , 那么 需要 在 PyCharm 中 设置 Python 解释 器 。 
通过 菜单 “File” 一 “Settings” 打 开 配 置 对 话 框 ， 在 左 栏 中 找到 “Project Interpreter”， 然 后 通过 
右 侧 的 齿轮 按钮 ， 并 选择 弹出 菜单 中 的 “Add Local” 选 项 ， 即 可 打开 如 图 16 所 示 的 对 话 框 。 


| aeralrsx|g|g He path 
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pythonwexe 
pywintypes27 dl 
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图 16 配置 Python 解释 器 的 路 径 


于 本 书 提供 的 代码 没有 复制 到 Python 的 库 搜索 路 径 中 ， 可 以 将 scpy2 的 路 径 添加 进 
PYTHONPATH 环境 变量 ,或 者 在 PyCharm a scpy2 所 在 的 路 径 添加 进 Python 的 库 搜索 路 径 。 
片上 面 提 到 的 齿轮 按钮 ， 并 选择 “More.……”， 将 打开 图 1-7 中 左 侧 的 对 话 框 ， 选 择 解释 器 之 
击 右 侧 工具 栏 中 最 下 方 的 按钮 ,打开 路 径 配 置 对 话 框 ,通过 此 对 话 框 添加 本 书 提供 的 scpy2 
库 所 在 的 路 径 。 
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图 1-7 添加 库 搜索 路 径 


1.2 IPython Notebook 入 门 


A 与 本 节 内 容 对 应 的 Notebook 为 : 01-intro/intro-200-ipython ipynb。 


自从 IPython 1.0 发 布 以 来 ， 越 来 越 多 的 科学 家 、 研 究 者 、 教 师 使 用 IPython Notebook 处 
理 数 据 、 写 研究 报告 ， 甚 至 编写 书籍 。 可 以 使 用 下 面 的 nbviewer 网 站 查看 在 网 络 上 公开 的 
Notebook: 


http://nbviewer.ipython.org/ 
通过 这 个 网 站 可 以 快速 查看 网 络 上 任何 Notebook 的 内 容 。 


在 IPython 的 官方 网 站 上 收集 了 许多 开发 者 发 布 的 Notebook: 


https://github.com/ipython/ipython/wiki/A-gallery-of-interesting-IPython-Notebooks 
上 面 有 许多 有 趣 的 Notebook。 


本 节 简要 介绍 Python Notebook 的 基本 使 用 方法 、 魔 法 命令 以 及 显示 系统 等 方面 的 内 容 。 
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1.2.1 基本 操作 
1. 运行 IPython Notebook 


使 用 系统 的 命令 行 工具 切换 到 保存 Notebook 文档 的 目录 ， 输 入 ipython notebook 命令 即 可 
启动 Notebook 服务 器 , 并 通过 系统 的 默认 浏览 器 打开 地 址 http/127.0.0.1:8888。 建议 读者 最 好 使 
日 Firefox 或 Chrome 浏览 Notebook。 

本 书 提供 的 代码 目录 scipybook2 中 包含 了 一 个 启动 Notebook 的 批 处 理 文件 run_notebook.bat。 
运行 该 批 处 理 文件 之 后 ,在 浏览 器 的 Notebook 列表 中 依次 单 击 0l-intro 一 intro-100-ipython.ipynb， 
就 能 打开 与 本 节 对 应 的 Notebook 文档 。 

如 图 1-8 所 示 ，Notebook 采用 浏览 器 作为 界面 ， 首 页 显示 当前 路 径 下 的 所 有 Notebook 文档 
和 文件 夹 。 单 击 “New Notebook ”按钮 或 文档 名 将 打开 一 个 新 的 页 面 ， 同 时 启动 一 个 运算 核 进 
程 与 其 交互 。 每 个 打开 的 Notebook 页 面 都 有 单独 的 Python 进程 与 之 对 应 ， 在 Notebook 中 输入 
的 所 有 命令 都 将 由 浏览 器 传递 到 服务 器 程序 ， 再 转发 到 该 进程 运行 。 文 档 的 读 取 和 保存 工作 由 
服务 器 进程 完成 ， 而 运算 核 进程 则 负责 运行 用 户 的 程序 。 因 此 即使 用 户 程序 造成 运算 核 进程 异 
常 退出 ， 也 不 会 丢失 任何 用 户 输入 的 数据 。 在 关闭 服务 器 进程 之 前 ,确保 所 有 的 Notebook 都 已 
保存 。 


运行 用 户 程序 
编辑 Notebook -一 

? 管理 Notebook i | 

" 4 运算 核 进程 
http//127.00.1.8888 qi | 

下 一 一 服务 器 进程 
浏览 器 

运算 核 进程 


图 1-8 IPython Notebook 架构 示意 图 
Notebook 有 自动 存档 和 恢复 功能 ， 可 通过 File 一 Revert to Checkpoint 菜单 恢复 到 以 前 的 版 
本 。 此 外 为 了 确保 安全 ， 打 开 他 人 创建 的 Notebook 时 ， 不 会 运行 其 中 的 Javascript 程序 和 显示 
SVG 图像。 如 果 确 信 来 源 可 靠 ， 可 以 通过 File 一 Trusted Notebook 信任 该 Notebook。 
2. 操作 单元 


notebooks\01-intro\notebook-train.ipynb: Notebook 的 操作 教程 ， 读 者 可 以 使 用 它 练习 
[Ea” Notebook 的 基本 操作 。 


Notebook 由 多 个 竖 向 排列 的 单元 构成 ， 每 个 单元 可 以 有 以 下 两 种 样式 : 


e Code: Code 单元 中 的 文本 将 被 作为 代码 执行 ， 执 行 代 码 时 按 ShifttEnter 快捷 键 ， 即 同 
时 按 下 Shift 和 Enter 键 。 
e@ Markdown: 使 用 Markdown 的 格式 化 文本 ， 可 以 通过 简单 的 标记 表示 各 种 显示 格式 。 
单元 的 样式 可 以 通过 工具 栏 中 的 下 拉 框 或 快捷 键 来 选择 。 为 了 快速 操作 这 些 单元 格 ， 需 要 
掌握 一 些 快捷 键 ， 完 整 的 快捷 键 列表 可 以 通过 菜单 Help 一 Keyboard Shortcuts 查看 。 
Notebook 有 两 种 编辑 模式 : 命令 模式 和 单元 编辑 模式 。 在 命令 模式 中 ， 被 选中 的 单元 格 的 
边框 为 灰色 。 该 模式 用 来 对 整个 单元 格 进行 操作 ， 例 如 删除 、 添 加 、 修 改 格式 等 。 按 Enter 键 
进入 单元 编辑 模式 ， 边 框 的 颜色 变 为 绿色 ， 并 有 日 上 方 菜 单条 的 右 侧 会 出 现 铅笔 图 标 ， 表示 目前 
处 于 编辑 状态 。 按 Esc 键 可 返回 命令 模式 。 
3. 安装 MathJax 


编写 技术 资料 少不了 输入 数学 公式 ，Notebook 使 用 MathJax 将 输入 的 LaTeX 文本 转换 成 数 
学 公式 。 由 于 MathJax 库 较 大 ， 没 有 集成 到 IPython 中 ， 而 是 直接 从 MathJax 官网 载 入 ， 因 此 如 
果 计 算 机 没有 联网 ， 就 无 法 正确 显示 数学 公式 。 为 了 解决 这 个 问题 ， 可 以 在 单元 中 输入 如 下 程 
序 ， 它 将 会 下 载 MathJax 到 本 地 人 硬盘: 

from IPython.external.mathjax import install mathjax, default dest 

install_mathjax() 


MathJax 完整 解压 之 后 ， 约 需 100MB 空间 ， 其 中 大 都 是 为 旧版 浏览 器 准备 的 PNG 字体 图 
像 文 件 。 执 行 下 面 的 语句 可 以 快速 删除 存放 PNG 字体 图 片 的 文件 夹 : 


from os import path 
import shutil 


png_path = path.join(default_dest, "fonts/HTML-CSS/TeX/png") 


shutil.rmtree(png_path) 
运行 完 上 面 的 命令 之 后 ， 在 命令 模式 下 按 m 键 将 单元 样式 切换 到 Markdown。 然 后 输入 如 


下 LaTeX 文本 : 
$e^{i\pi} + 1 = 0$ 
按 ShifttEnter 快 捷 键 之 后 ， 其 内 容 将 被 转换 成 数学 公式 显示 : eir +1= 0。 
在 本 书 提供 的 scipybook2 下 的 settings 目录 下 已 经 安装 了 MathJax， 因 此 不 必 联 网 也 可 以 看 
到 数学 公式 。 
4. 操作 运算 进程 
在 代码 单元 中 输入 的 代码 都 将 在 运算 核 进程 的 运行 环境 中 执行 。 当 执行 某 些 代码 出 现 问题 
时 ， 可 以 通过 Kemel 菜单 中 的 选项 操作 该 进程 : 
e Interupt: 中 断 运行 当前 的 程序 ， 当 程序 进入 死 循 环 时 可 以 通过 它 中 断 程 序 运行 。 


于 
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。 Restart: 当 运算 核 进程 在 扩展 模块 的 程序 中 进入 死 循 环 ,无 法 通过 Interrupt 菜单 中 断 时 ， 

可 以 通过 此 选项 重新 启动 运算 核 进程 。 

一 旦 运算 核 进程 被 关闭 ， 运 行 环境 中 的 对 象 将 不 复 存 在 ， 此 时 可 以 通过 Cell 一 Run All 菜 

单 再 次 执行 所 有 单元 中 的 代码 。 代 码 将 按照 从 上 到 下 的 顺序 执行 。 由 于 用 户 在 编写 Notebook 

时 ， 可 以 按照 任意 顺序 执行 单元 ， 因 此 为 了 保证 能 再 现 运行 环境 中 的 所 有 对 象 ， 请 记 住 调整 单 
元 的 先后 顺序 。 


1.2.2 ”魔法 (Magic) 命 令 


IPython 提供 了 许多 魔法 命令 , 使 得 在 IPython 环境 中 的 操作 更 加 得 心 应 手 。 魔法 命令 都 以 % 
或 %% 开 头 ， 以 % 开 头 的 为 行 命令 ， 以 %9% 开 头 的 为 单元 命令 。 行 命令 只 对 命令 所 在 的 行 有 效 ， 
而 单元 命令 则 必须 出 现在 单元 的 第 一 行 ， 对 整个 单元 的 代码 进行 处 理 。 

执行 %omagic 可 以 查看 关于 各 个 命令 的 说 明 , 而 在 命令 之 后 添加 ?可 以 查看 命令 的 详细 说 明 。 
此 外 扩展 库 可 以 提供 自己 的 魔法 命令 ， 这 些 命令 可 以 通过 %load_ext 载 入 。 例 如 %load_ext cython 
载 入 %9%bcython 命令 ， 以 该 命令 开头 的 单元 将 调用 Cython 编译 其 中 的 代码 。 

1. 显示 matplotlib 图 表 


matplotlib 是 Python 世界 中 最 著名 的 绘图 扩展 库 , 支持 输出 多 种 格式 的 图 形 图 像 ， 并且 可 以 
使 用 多 种 GUI 界面 库 交 互 式 地 显示 图 表 。 使 用 ‰%matplotlib 命令 可 以 将 matplotlib 的 图 表 直 接 霸 
入 到 Notebook 中 ， 或 者 使 用 指定 的 界面 库 显示 图 表 ， 它 有 一 个 参数 指定 matplotlib 图 表 的 显示 
方式 。 

在 下 面 的 例子 中 ，inline 表示 将 图 表 柑 入 到 Notebook 中 。 因 此 由 最 后 一 行 pl.plot0 创 建 的 图 
表 将 直接 显示 在 该 单元 之 下 : 


%matplotlib inline 
import pylab as pl 
pl.seed(1) 

data = pl.randn(166) 
pl.plot(data) 


内 棋 图 表 的 输出 格式 默认 为 PNG， 可 以 通过 %econfig 命令 修改 这 个 配置 。%config 命令 可 以 
配置 IPython 中 的 各 可 配置 对 象 ， 其 中 InlineBackend 对 象 为 matplotlib 输出 内 撕 图 表 时 所 使 用 的 
配置 ， 我 们 配置 它 的 figure_format="svg"， 这 样 可 将 内 拒 图 表 的 输出 格式 修改 为 SVG。 


%config InlineBackend.figure_format="Ssvg” 
pl.plot(data) 


内 嵌 图 表 很 适合 制作 图 文 并 茂 的 Notebook， 然 而 它们 是 静态 的 ， 无 法 进行 交互 。 可 以 将 图 


表 输 出 模式 修改 为 使 用 GUI 界面 库 ， 下 面 的 qt 表示 使 用 QT4 界面 库 显 示 图 表 。 请 读者 根据 自 
己 系统 的 配置 ， 选 择 合适 的 界面 库 : gtk、osx、qt、gt4、 代 、wx。 


执行 下 面 的 语句 将 弹出 一 个 窗口 显示 图 表 ， 可 以 通过 鼠标 和 键盘 与 此 图 表 交互 。 请 注意 该 
功能 只 能 在 运行 Python Kemel 的 机 器 上 显示 图 表 。 


%matplotlib qt4 
pl.plot(data) 


2. 性 能 分 析 


性 能 分 析 对 编写 处 理 大 量 数据 的 程序 非常 重要 , 特别 是 Python 这 样 的 动态 语言 ,一 条 语句 
可 能 会 执行 很 多 内 容 ， 有 的 是 动态 的 ， 有 的 调用 扩展 库 。 不 做 性 能 分 析 ， 就 无 法 对 程序 进行 优 
化 。IPython 提供 了 性 能 分 析 的 许多 魔法 命令 。 

timeit 调用 timeit 模块 对 单行 语句 重复 执行 多 次 ， 计 算出 执行 时 间 。 下 面 的 代码 测试 修改 
列表 的 单个 元 素 所 需 的 时 间 : 


a = [1,2,3] 
%timeit a[1] = 16 
16666666 loops, best of 3: 69.3 ns per loop 


%9%timeit 则 用 于 测试 整个 单元 中 代码 的 执行 时 间 。 下 面 的 代码 测试 空 列表 中 循环 添加 10 
个 元 素 所 需 的 时 间 : 
Xtimeit 
as 
for i in xrange(10): 
a.append(i) 
16666668 loops, best of 3: 1.82 hs per loop 


timeit 命令 会 重复 执行 代码 多 次 , 而 time 则 只 执行 一 次 代码 , 输出 代码 的 执行 情况 。 和 timeit 


命令 一 样 , time 可 以 作为 行 命令 和 单元 命令 。 下 面 的 代码 统计 往 空 列表 中 添加 10 万 个 元 素 所 需 
的 时 间 : 
%%time 
ac=all 
for i in xrange(166666) : 
a.append(i) 


Wall time: 18 ms 


time 和 timeit 命 令 都 使 用 print 输 出 信息 , 如果 希 望 用 程序 分 析 这 些 信息 , 可 以 使 用 %9%capture 
命令 ， 将 单元 格 的 输出 保存 为 一 个 对 象 。 下 面 的 程序 对 不 同 长 度 的 列表 调用 random.shuffle0 以 
打 乱 顺序 ， 用 %time 记录 下 shuffle0 的 运行 时 间 : 


%%capture time results 
import random 
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for n in [1668，5688，168666，56668，1666866，5686666] : 
print“n={6}" .format(n) 
alist = range(n) 
%time random.shuffle(alist) 


time_results.stdout 属性 保存 标准 输出 管道 中 的 输出 信息 : 


print time results.stdout 
n=1666 

Wall time: 1 ms 
n=5666 

Wall time: 5 ms 
n=16666 

Wall time: 16 ms 
n=56666 

Wall time: 46 ms 
n=106666 

Wall time: 62 ms 
n=566666 

Wall time: 466 ms 


Tt ! 

加 | 如 果 在 调用 %timeit 命 令 时 添加 -o 参数 , 则 返回 一 个 表示 运行 时 间 信 息 的 对 象 。 下 面 的 程序 
”对 不 同 长 度 的 列表 调用 sorted0 排 序 ， 并 使 用 %timeit 命令 统计 排序 所 需 的 时 间 : 

安 | 


装 | timeit_results = [] 

简 | for n in [5668，16668，268666，466686，866868，166868，326666] : 

人 | alist = [random.random() for i in xrange(n)] 
res = %timeit -o sorted(alist) 
timeit_results.append((n，res)) 

1666 loops, best of 3: 1.56 ms per loop 

166 loops, best of 3: 3.32 ms per loop 

166 loops, best of 3: 7.57 ms per loop 

166 loops, best of 3: 16.4 ms per loop 

16 loops, best of 3: 35.8 ms per loop 

16 loops, best of 3: 81 ms per loop 

16 loops, best of 3: 185 ms per loop 


图 1-9 显示 了 排序 的 耗 时 结果 。 横 坐标 为 对 数 坐 标 轴 ， 表 示 数 组 的 长 度 ， 纵 坐标 为 平均 每 


个 元 素 所 需 的 排序 时 间 。 可 以 看 出 每 个 元 素 所 需 的 平均 排序 时 间 与 数组 长 度 的 对 数 成 正比 ， 因 
此 可 以 计算 出 排序 函数 sorted0 的 时 间 复 杂 度 为 : Oologn)。 
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图 1-9 sorted0 函 数 的 时 间 复 杂 度 


%%prun 命令 调用 profile 模块 ， 对 单元 中 的 代码 进行 性 能 齐 析 。 下 面 的 性 能 剖析 显示 fib0 
运行 了 21891 次 ， 而 fib_fast0 则 只 运行 了 20 次 : 


%%prun 
def fib(n): 
ne 2 
return 1 
else: 
return fib(n-1) + fib(n-2) 


def fib fast(n, a=1, b=1): 
ifn == 


return b 
else: LE 
return fib fast(n-1, b, a+b) 


fib(26) | 
fib fast(26) ! 
21913 function calls (4 primitive calls) in 8.667 seconds 


Ordered by: internal time 


ncalls tottime percall cumtime percall filename:lineno(function) | 
21891/1 8.667 8.666 8.667 68.667 “string>:2(fib) 
26/1 8.666 8.666 8.666 8.666 <string>:8(fib fast) | 
1 808.6600 8.666 8.667 8.6867 “string>:2(<module>) 
到 8.666 8.666 8.666 8.666 {method ‘disable' of '_lsprof.Profiler' 
objects} 


> 或 灯 浊 烛 作 匣 尖 类 守 性 世 UoUMd 


Python 科学 计算 (第 2 版 ) 


3. 代码 调试 
qdebug 命令 用 于 调试 代码 ， 它 有 两 种 用 法 : 一 种 是 在 执行 代码 之 前 设置 断 点 进行 调试 ; 


另 一 种 则 是 在 代码 抛 出 异常 之 后 ， 执 行 %debug 命令 查看 调用 堆栈 。 下 面 先 演示 第 二 种 用 法 : 


import math 


def sinc(x): 
return math.sin(x) / x 


[sinc(x) for x in range(5)] 


ZeroDivisionError Traceback (most recent call last) 
<ipython-input-28-9b69eaad97fe> in <module>() 

4 return math.sin(x) / x 

5 


----> 6 [sinc(x) for x in range(5)] 


<ipython-input-28-9b69eaad97fe> in sinc(x) 


六 
3 def sinc(x): 

---->4 return math.sin(x) / x 
> 


6 [sinc(x) for x in range(5)] 


ZeroDivisionError: float division by zero 


上 面 的 程序 抛 出 了 ZeroDivisionEror 异常 ， 下 面 用 9%debug 查看 调用 堆栈 。 在 调试 模式 下 可 


以 使 用 pdb 模块 提供 的 调试 命令 ， 例 如 用 命令 px 显示 变量 x 的 值 : 


来 并 


%debug 
><ipython-input-28-9b69eaad97fe>(4)sinc() 
3 def sinc(x): 
---->4 return math.sin(x) / x 
5 


ipdb> p x 
9 
ipdb> q 


还 可 以 先 设置 断 点 ， 然 后 运行 程序 。 但 是 9odebug 的 断 点 需要 指定 文件 名 和 行 号 ， 使 用 起 
不 是 太 方便 。 本 书 提供 了 %9tfunc_debug 单元 命令 ， 可 以 通过 它 指 定 中 断 运行 的 函数 。 在 下 


面 的 例子 中 ， 程 序 将 在 numpy.unique0 的 第 一 行 中 断 运行 ， 然 后 通过 输入 命令 n 单 步 运行 程序 ， 


最 后 输入 命令 继续 运行 


%kfunc_debug np.unique 
np.unique([1, 2, 5, 4, 2]) 
Breakpoint 1 at 
Cc:\winpython-32bit-2.7.9.2\python-2.7.9\1ib\site-packages\numpy\lib\arraysetops.py:96 
NOTE: Enter 'c' at the ipdb> prompt to continue execution. 
> c:\winpython-32bit-2.7.9.2\python-2.7.9\1ib\site-packages\numpy\lib\arraysetops.py(173) 
unique() 
172 
--> 173 ar = np.asanyarray(ar).flatten() 
174 


ipdb> n 
>c:\winpython-32bit-2.7.9.2\python-2.7.9\1ib\site-packages\numpy\lib\arraysetops.py(175) 
unique() 
174 
--> 175 optional_indices 
176 optional_returns 


return_index or return_inverse 
optional_indices or return_counts 


ipdb> c 
4. 自 定义 的 魔法 命令 


scpy2.utils.nbmagics: 该 模块 中 定义 了 本 书 提供 的 魔法 命令 ， 如 果 读者 使 用 本 书 提供 的 
[@®) 批 处 理 运行 Notebook， 则 该 模块 已 经 载 入 。notebooks\01-introscpy2-magics.ipynb 是 这 些 
魔法 命令 的 使 用 说 明 。 


IPython 提供 了 很 方便 的 自 定 义 魔法 命令 的 方法 。 最 简单 的 方法 就 是 使 用 register_line_magic 
和 register_cell_magic 装饰 器 将 函数 转换 为 魔法 命令 。 下 面 的 例子 使 用 register_line_magic 定义 了 
-个 行 魔法 命令 %find， 它 在 指定 的 对 象 中 搜索 与 目标 匹配 的 属性 名 : 


from IPython.core.magic import register line magic 


@register line magic 

def find(line): 
from IPython.core.getipython import get_ipython 
from fnmatch import fnmatch 


items = line.split() © 

patterns, target = items[:-1], items[-1] 
ipython = get_ipython() @ 

names = dir(ipython.ev(target)) © 
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results = [] 
for pattern in patterns: 
for name in names: 
if fnmatch(name, pattern): 
results.append(name) 
return results 


当 调 用 %find 行 魔法 命令 时 ， 魔 法 命令 后 面 的 所 有 内 容 都 传递 给 line 参数 。@ 按 照 空 格 对 
line 进行 分 隔 ， 除 最 后 一 个 元 素 之 外 ， 其 余 的 元 素 都 作为 搜索 模板 ， 而 最 后 一 个 参数 则 为 搜索 
的 目标 。@ 通 过 get_ipython0 函 数 获 得 表示 IPython 运算 核 的 对 象 , 通过 该 对 象 可 以 操作 运算 核 。 
目 调 用 运算 核 的 ev(0 方 法 对 表达 式 target 求 值 以 得 到 实际 的 对 象 , 并 用 dir0 获 取 该 对 象 的 所 有 属 
性 名 。 

最 后 使 用 fnmatch 模块 对 搜索 模板 和 属性 名 进行 匹配 ， 将 匹配 结果 保存 到 results 并 返回 。 

下 面 使 用 %find 命令 在 numpy 模块 中 搜索 所 有 以 array 开头 或 包含 mul 的 属性 名 : 


import numpy as np 
names = %find array* *mul* np 


names 

['array', "array2string', "array_equal', "array_equiv', 
'array_repr', "array_split', "array_str', ‘multiply', 
"polymul', "ravel multi index'] 


下 面 的 例子 使 用 register_cell_magic 注册 9%96cut 单元 命令 。 在 调试 代码 时 ， 我 们 经 常会 添加 
print 语句 以 输出 中 间 结 果 。 但 如 果 输 出 的 字符 串 太 多 , 会 导致 浏览 器 的 速度 变 慢 其 至 失去 响应 。 
此 时 可 以 使 用 %96cut 限制 程序 输出 的 行 数 和 字符 数 。 

cutO 函 数 有 两 个 参数 ， line 和 cell， 其 中 line 为 单元 第 一 行 中 除了 魔法 命令 之 外 的 字符 串 ， 
而 cell 为 除了 单元 中 第 一 行 之 外 的 所 有 字符 串 。line 通 常 为 魔法 命令 的 参数 ， 而 cell 则 为 需要 执 
行 的 代码 。IPython 提供 了 基于 装饰 器 的 参数 分 析 函 数 。 下 面 的 例子 使 用 argument0 声 明了 两 个 
参数 4 和 -c， 它 们 分 别 指定 最 大 行 数 和 最 大 字符 数 ， 它 们 的 默认 值 分 别 为 100 和 10000: 

from IPython.core.magic import register cell magic 

from IPython.core.magic arguments import argument, magic_arguments, parse_argstring 


@magic_arguments() 
@argument('-1', '--lines', help="'max lines', type=int, default=160) 
@argument('-c', '--chars', help="'max chars'，type=int，default=16666) 
@register_ cell magic 
def cut(line, cell): 

from IPython.core.getipython import get_ipython 


from sys import stdout 
args = parse_argstring(cut, line) © 
max_lines = args.lines 
max_chars = args.chars 


counters = dict(chars=86, lines=0) 


def write(string): 
counters["lines"] += string.count("\n") 
counters["chars"] += len(string) 


if counters["lines"] >= max_lines: 

raise IOError("Too many lines") 
elif counters["chars"] >= max_chars: 

raise IOError("Too many characters") 
else: 

old write(string) 


try: 
Old write, stdout.write = stdout.write, write ©@ 
ipython = get_ipython() 
ipython.run_cell(cell) © 
finally: 
del stdout.write @ 


@ 调 用 parse_argstring0 分 析 行 参数 ， 它 的 第 一 个 参数 是 使 用 argument 装饰 器 修饰 过 的 魔法 。 ， 简 
命令 函数 ， 第 二 个 参数 为 行 命令 字符 串 。@ 在 调用 单元 代码 之 前 ， 将 stdout.write0 替 换 为 限制 输 
出 行 数 和 字符 数 的 write0 函 数 。@ 调 用 运算 核对 象 的 run_cell0 来 运行 单元 代码 。@ 运 行 完毕 之 
后 将 stdout.write0 删 除 ， 恢 复 到 原始 状态 。 

下 面 是 使 用 %%cut 限制 输出 行 数 的 例子 : 


%%cut -1 5 
for i in range(16666) : 
print "I am line", i 
am line 6 
am line 1 
2 


IOError Traceback (most recent call last) 
<ipython-input-9-5d2e5186be18> in <module>() 
1 for i in range(16666) : 
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-==-> 2 print "I am line", i 


<ipython-input-8-e@ddfb5e18b6> in write(string) 


26 
2 if counters["lines"] >= max_lines: 
---> 22 raise IOError("Too many lines") 
23 elif counters["chars"] >= max_chars: 
24 raise IOError("Too many characters") 


IOError: Too many lines 
1.2.3 ”Notebook 的 显示 系统 
若 单元 中 代码 的 最 后 一 行 没有 缩 进 ， 并 且 不 以 分 号 结尾 ， 则 在 单元 的 输出 栏 中 显示 运行 该 


代码 后 得 到 的 对 象 。 此 外 运算 核 的 标准 输出 被 重 定向 到 单元 的 输出 框 中 ， 因 此 可 以 使 用 print 
语句 输出 任何 信息 。 例 如 在 下 面 的 程序 中 ,使 用 循环 进行 累加 计算 ， 在 循环 体 中 使 用 print 输出 


如 中 间 结 果 ， 而 最 后 一 行 的 运算 结果 就 是 变量 s 的 值 : 
-ad 
| 
El s=0 
for i in range(4): 
s+=1i 


print "i={}, s={}".format(i, s) 


i=0,，s=0 
i=1, s=1 
i=2, s=3 


i=3, s=6 


1. display 模块 


由 于 Notebook 采用 浏览 器 作为 界面 ,因此 除了 可 以 显示 文本 之 外 , 还 可 以 显示 图 像 、 动 画 、 
HTML 等 多 种 形式 的 数据 。 有 关 显 示 方 面 的 功能 均 在 IPython.display 模块 中 定义 。 其 中 提供 了 
表 1-3 所 示 的 对 象 ， 用 于 显示 各 种 格式 的 数据 。 


表 1-3_IPython.display 模块 提供 的 用 于 显示 各 种 格式 的 数据 的 类 


类 名 说 明 
Audio 将 二 进 制 数据 、 文 件 或 网 址 显示 为 播放 声音 的 控件 
FileLink 将 文件 夹 路 径 显示 为 一 个 超 链接 
FileLinks 将 文件 夹 路 径 显示 为 一 组 超 链接 
HTML 将 字符 串 、 文 件 或 网 址 显示 为 HTIML 


将 表示 图 像 的 二 进 制 字符 串 、 文 件 或 网 址 显示 为 图 像 
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类 名 说 明 
Javascript 将 字符 串 作 为 Javascript 代码 在 浏览 器 中 运行 
Latex 将 字符 串 作为 LaTeX 代码 显示 ， 主 要 用 于 显示 数学 公式 
SVG 将 字符 串 、 文 件 或 网 址 显示 为 SVG 图 形 


当 对 单元 中 程序 的 最 后 一 行 求 值 并 得 到 上 述 类 型 的 对 象 时 , 将 在 单元 的 输出 栏 中 显示 对 应 
的 格式 。 也 可 以 使 用 display 模块 中 的 display0 函 数 在 程序 中 输出 这 些 对 象 。 下 面 的 程序 使 用 Latex 
对 象 输出 了 3 个 数学 公式 , 其 中 前 两 个 使 用 display0 输 出 , 而 由 于 最 后 一 行 的 求 值 结果 为 Latex0 
对 象 ， 因 此 它 也 会 被 显示 为 数学 公式 。 


from IPython import display 


for i in range(2, 4): 
display.display(display.Latex("$x^{i} + y^{i}$".format(i=i))) 
display.Latex("$x^4 + y^4$") 


X2 十 yY2 
X3 十 yY3 
X4 十 yY4 
Image 对 象 可 以 用 于 显示 图 像 ， 当 用 un 参数 时 ， 它 会 从 指定 的 网 址 获取 图 像 ， 并 显示 在 
Notebook 中 。 如 果 embed 参数 为 True， 图 像 的 数据 将 直接 嵌入 到 Notebook 之 中 ， 这 样 此 后 打开 
此 Notebook 时 ， 即 使 没有 联网 也 可 以 显示 该 图 像 。 
logourl =“https://ww.python.org/static/community_logos/python-logo-master-v3-TM.png” 
display.Image(url=logourl, embed=True) 
在 后 续 的 章节 中 经 常会 将 NumPy 数组 显示 为 图 像 ， 这 时 可 以 使 用 matplotlib 中 提供 的 函数 
将 数组 转换 成 PNG 图 像 的 字符 串 ， 然 后 通过 Image 将 图 像 数据 嵌入 到 Notebook 中 。 下 面 的 
as_png0 使 用 matplotlib 中 的 imsave0 将 数组 转换 成 PNG 图 像 数据 : 


def as_png(img, **kw): 
"将 数组 转换 成 PNG 格式 的 字符 串 数据 " 
import io 
from matplotlib import image 
from IPython import display 
buf = io.BytesI0() 
image.imsave(buf, img, **kw) 
return buf.getvalue() 


下 面 的 程序 通过 公式 sin(x? + 2 .y2 十 x:y) 生 成 二 维 数组 z, 并 调用 as_png0 将 其 转换 为 
符 串 png， 查 看 该 字符 串 的 头 10 个 字 节 ， 可 以 看 出 该 字符 串 就 是 PNG 图 像 文 件 中 的 数据 。 最 
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后 使 月 


Image0 将 该 字符 


Hd 
i 


使 


import numpy as np 
y，x = np.mgrid[-3:3:366j，-6:6:666j] 
z = np.sin(x**2 + 2*y**2 + x*y) 


PNG 图 像 显 示 出 来 ， 结 果 如 图 1-10( 左 ) 所 示 。 


png = as_png(z, cmap="Blues", vmin=-2, vmax=2) 
print repr(png[:16]) 
display.Image(png) 
'\x89PNG\r\n\x1la\n\x88\x80" 


2. 自 定义 对 象 的 显示 格式 


有 两 种 方式 可 以 自 定 义 对 象 在 Notebook 中 的 显示 格式 : 
e 给 类 添加 相应 的 显示 方法 。 


。 为 


当 我 们 自己 编写 类 的 代码 | 
只 需要 定义 _repr_*_0 等 方法 即 可 , 这 里 的 * 可 以 是 html、 svg、javascript、 latex、png 等 格式 的 名 称 。 
在 下 面 的 例子 中 , Color 类 : 
它们 分 别 使 用 HTML 和 PNG 图 像 显示 颜色 信息 。 


class Color(object) : 


注册 相应 的 显示 函数 。 


时 ， 使 用 第 一 种 方法 最 为 便捷 。 和 Python 的 _str_0 方 法 类 似 ， 


! 定 义 了 IPython 用 的 两 个 显示 方法 : _repr_html_0O 和 _repr_png_0， 


def _init (self, r, g, b): 


def 


de 


Ts 


de 


def 


self.rgb =r, g, b 


html_color(self): 


return '#{:02x}{:862x}{:82x}' .format(*self.rgb) 


invert(self): 
r，8g，b = self.rgb 
return Color(255-r 


_repr_html_(self): 


color = self.html_color() 


，255-g，255-b) 


inv_color = self.invert().html_color() 


template = '<span 


style="background-color:{c};color:{ic};padding: 5px;">{c}</span>" 


return template.format(c=color, ic=inv_color) 


_repr_png_(self): 
img = np.empty( (50@. 


，56，3)，dtype=np.uint8) 


img[:,:,:] = self.rgb 


return as_png(img) 


下 面 创建 Color 对 象 , 并 直接 查看 它 , IPython 会 自动 选择 最 合适 的 显示 格式 。 由 于 Notebook 
是 基于 HTML 的 ，HTML 格式 的 优先 级 别 最 高 ， 因 此 查看 Color 对 象 时 ，_repr_html_0 方 法 将 被 
调用 : 


c = Color(255, 10, 10) 
到 


为 了 使 用 其 他 格式 显示 对 象 ， 可 以 调用 display.display_*0 函 数 ， 这 里 调用 display_png0 将 
Color 对 象 转换 成 PNG 图 像 显示 : 


display.display_png(c) 


每 种 输出 格式 都 对 应 一 个 Formatter 对 象 ， 它 们 被 保存 在 DisplayFormatter 对 象 的 formatters 
字典 中 ， 下 面 获取 该 字典 中 与 PNG 格式 对 应 的 Formatter 对 象 : 


shell = get_ipython() 
png_formatter = shell.display_formatter.formatters[u'image/png'] 


调用 Formatterfor type_by_name0 可 以 为 该 输出 格式 添加 指定 的 格式 显示 函数 ,其 前 两 个 参 
数 分 别 为 模块 名 和 类 名 。 由 于 使 用 字符 串 指定 类 , 因此 添加 格式 显示 函数 时 不 需要 载 入 目标 类 。 
下 面 的 代码 为 NumPy 的 数组 添加 显示 函数 as_png0: 


png_formatter.for_type_by_name("numpy", "ndarray", as_png) 


下 面 查看 前 面 创建 的 数组 z， 它 将 以 图 像 的 形式 呈现 ， 结 果 如 图 1-10( 右 ) 所 示 。 


图 1-10 使 用 as_png0 将 数组 显示 为 PNG 图 像 ( 左 )， 将 as_png0 注 册 为 数组 的 显示 格式 ( 右 ) 


如 果 目 标 类 已 被 载 入 ,可 以 使 用 for_type( 方 法 为 其 添加 格式 显示 函数 。 下 面 的 代码 将 表示 
分 数 的 Fraction 类 使 用 LaTeX 的 数学 公式 进行 显示 : 


from fractions import Fraction 
latex_formatter = shell.display_formatter.formatters[u"text/latex"] 
def fraction formatter(obj): 

return '$$\\frac{%d}{%d}$$' % (obj.numerator, obj.denominator) 
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latex_formatter.for_type(Fraction, fraction formatter) 
Fraction(3, 4) ** 4/3 


27 
256 


1.2.4 ”定制 IPython Notebook 


虽然 IPython 只 提供 了 最 基本 的 编辑 .运行 Notebook 的 功能 , 但 是 它 具 有 丰富 的 可 定制 性 ， 
用 户 可 以 根据 自己 的 需要 打造 出 独特 的 Notebook 开发 环境 。 如 图 1-8 所 示 ，IPython Notebook 系 
统 由 浏览 器 、 服 务 器 和 运算 核 三 部 分 组 成 。IPython 分 别提 供 了 这 三 部 分 的 定制 方法 。 

1. 用 户 配置 (profile) 

每 次 启动 IPython 时 都 会 从 指定 的 用 户 配置 (profile) 文 件 夹 下 读 取 配 置信 息 。 下 面 的 代码 输 
出 当前 的 用 户 配置 文件 夹 的 路 径 ， 该 路 径 由 HOME 环境 变量 、.ipython 和 profile 配置 名 构成 。 


在 本 书 提供 的 运行 IPython Notebook 的 批 处 理 文件 中 配置 了 HOME 环境 变量 ， 因 此 能 
衣 将 配置 文件 来 和 Notebook 文 件 一 起 打包 。 


import os 

ipython = get_ipython() 

print "HOME 环境 变量 :"，os.environ["HOME"] 

print "IPython 配置 文件 夹 :"，ipython.ipython_dir 

print“" 当 前 的 用 户 配 置 文件 夹 :"，ipython.config.ProfileDir.1ocation 

HOME 环境 变量 : C:\Users\RY\Dropbox\scipybook2\settings 

IPython 配置 文件 夹 : C:\Users\RY\Dropbox\scipybook2\settings\.ipython 

当前 的 用 户 配 置 文件 夹 : 
C:\Users\RY\Dropbox\scipybook2\settings\.ipython\profile_scipybook2 


可 以 在 命令 行 中 输入 如 下 命令 来 创建 新 的 用 户 配 置 : 

ipython profile create test 

修改 用 户 配 置 文件 夹 之 下 的 配置 文件 之 后 ， 在 启动 Notebook 时 通过 --profile 参数 指定 所 采 
用 的 用 户 配置 : 

ipython notebook --profile test 


2. 服务 器 扩展 插件 和 Notebook 扩展 插件 


在 .ipython 文件 夹 之 下 还 有 两 个 子 文件 夹 一 extensions 和 nbextensions， 它 们 分 别 用 于 保存 
服务 器 和 浏览 器 的 扩展 程序 。 
e@ ”extensions: 存放 用 Python 编写 的 服务 器 扩展 程序 。 


e@ nbextensions: 存放 Notebook 客户 端的 扩展 程序 ， 通 常 为 JavaScript 和 CSS 样式 表 文 件 。 

Notebook 的 服务 器 基于 tomado 服务 器 框架 开发 ， 因 此 编写 服务 器 的 扩展 程序 需要 了 解 
tornado 框架 ， 而 开发 Notebook 客户 端 (浏览 器 的 界面 部 分 ) 的 扩展 程序 则 需要 了 解 HTML、 
JavaScript 和 CSS 样式 表 等 方面 的 内 容 。 这 些 内 容 与 本 书 的 主题 无 关 ， 就 不 再 详细 叙述 了 。 下 面 
看 看 如 何 安装 他 人 开发 的 扩展 程序 。 


© https://github.com/ipython-contrib/IPython-notebook-extensions/wiki/config-extension 
安装 IPython 扩展 程序 的 说 明 。 


首先 执行 下 面 的 语句 来 安装 Notebook 客户 端的 扩展 程序 , user 参数 为 Tmue 表示 将 扩展 安装 
在 HOME 环境 变量 路 径 之 下 的 ,ipython 文件 夹 中 : 
import IPython.html.nbextensions as nb 


ext= 'https://github.com/ipython-contrib/IPython-notebook-extensions/archive/3.x.zip' 
nb.install_nbextension(ext, user=True) 


上 而 的 程序 将 在 nbextensions 文件 夹 下 创建 IPython-notebook-extensions-3.x 文件 来， 其 中 包 

含 了 许多 客户 端 扩 展 程序 。 接 下 来 按照 如 下 步 又 完成 安装 : 

(1) 将 nbextensions\IPython-notebook-extensions-3.x\config 移 到 nbextensions 文件 夹 之 下 。 

(2) 将 nbextensions\confignbextensions.py 移 到 | extensions 文件 夹 之 下 。 

(3) 在 ipython 之 下 创建 templates 文件 夹 。 

(4) 将 nbextensions\configmbextensions html 移 到 templates 文件 夹 之 下 。 

(5) 将 nbextensions\config\ipython_notebook_configpy 中 的 代码 添加 到 profile_defaultipython 
notebook_config.py 中。 

(9) 访问 http:/localhost:8888nbextensions/, 在 该 页 面 上 可 以 管理 nbextensions 文件 夹 下 安装 的 
客户 端 扩展 程序 。 

当 Notebook 服 务 器 启动 时 ,会 运行 用 户 配 置 (profile) 文 件 夹 之 下 的 ipython_notebook_config.py 
文件 ， 并 使 用 其 中 的 配置 。 

下 面 是 ipython_notebook_config.py 中 的 配置 代码 。@ 首 先 将 extensions 文件 夹 添加 到 Python 
的 模块 搜索 路 径 之 下 , 因此 该 路 径 之 下 的 nbextensions.py 文 件 可 以 通过 import nbextensions 载 入 。 
@ 指 定 服务 器 扩展 程序 的 模块 名 ， 由 于 之 前 添加 了 搜索 路 径 ， 因 此 Python 可 以 直接 通过 模块 名 
mbextensions 找到 对 应 的 文件 nbextensionspy。 利 将 templates 文件 夹 添加 到 服务 器 扩展 程序 的 网 
页 模板 的 搜索 路 径 ， 让 服务 器 可 以 找到 nbextensions.html 文件 。 


from IPython.utils.path ;import get_ipython_dir 
import os 
import sys 


ipythondir = get_ipython_dir() 
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extensions = os.path.join(ipythondir，extensions ') 
sys.path.append( extensions ) © 


c= get config() 
Cc.NotebookApp. server_extensions = [ 'nbextensions'] @ 
Cc.NotebookApp.extra_template paths = [os.path.join(ipythondir，templates')] © 


nbextensions 扩展 程序 为 服务 器 添加 了 一 个 新 的 URL 一 http://localhost:8888/nbextensions/, 通 
过 该 路 径 可 以 开启 或 禁止 指定 的 客户 端 扩 展 程序 。nbextensions 扩展 程序 通过 递归 搜索 
nbextensions 文件 夹 下 的 YAML 文件 识别 客户 端 扩展 程序 , IPython-notebook-extensions-3.x 目录 下 
只 有 部 分 扩展 程序 附带 了 YAML 文件 ， 读 者 可 以 仿照 这 些 文件 为 其 他 的 扩展 程序 添加 相应 的 
YAML 文件 ， 这 样 就 可 以 通过 nbextensions 页 面 管理 扩展 程序 了 。 

3. 添加 新 的 运算 核 


由 于 执行 用 户 代码 的 运算 核 与 Notebook 服务 器 是 独立 的 进程 ， 因 此 不 同 的 Notebook 可 以 
加 使 用 不 同 版 本 的 Python， 甚 至 是 其 他 语言 的 运算 核 。IPython 的 下 一 个 版 本 将 改名 为 Jupyter， 其 
引 目标 是 创建 通用 的 科学 计算 的 开发 环境 ,支持 Julia.Python 和 RR 等 在 数据 处 理 领域 流行 的 语言 。 
虹 ， 下 面 以 Python3-64bit 为 例 介绍 如 何 添加 新 的 运算 核 。 

和 : 首先 从 WinPython 的 网 址 下 载 WinPython-64bit-3.4.3.3.exe， 并 安装 在 C 盘 根 目录 之 下 。 然后 
环 ; ”运行 下 面 的 代码 来 创建 运算 核 配置 文件 : 


安 | import os 
装 | from os import path 
简 | import json 


ipython = get_ipython() 

kernels_folder = path.join(ipython.ipython_dir, "kernels") 

if not path.exists(kernels_folder): 
os.mkdir(kernels_folder) 


python3_path = “"C:\NwWinPython-64bit-3.4.3.3\Nscripts\Npython.bat” 


kernel settings = { 
"argv": [python3_path, 
"-m", "IPython.kernel", "-f", "{connection file}"], 
"display_name": "Python3-64bit", 
"language": "python" 


kernel_folder = path.join(kernels folder, kernel settings["display_name"]) 
if not path.exists(kernel_ folder): 
os.mkdir(kernel folder) 
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kernel_ fn = path.join(kernel folder, "kernel.json") 


with open(kernel fn, "w") as f: 
json.dump(kernel_settings, f, indent=4) 


上 面 的 代码 创建 .ipython\kernels\python3-64bit\kerneljson 文件 ， 它 是 一 个 JSON 格式 的 字典 ， 
其 中 "argv" 键 为 运算 核 的 启动 命令 ，"display_name" 为 运算 核 的 显示 名 称 ，"language" 为 运算 核 的 
刷新 Notebook 的 索引 页 面 之 后 ， 可 以 在 “New” 下 拉 菜 单 中 找到 “Python3-64bit” 选 项 ， 
单 击 它 将 打开 一 个 以 Python3 64bit 解 释 器 为 运算 核 的 Notebook 页 面 。 在 Notebook 页 面 中 也 可 以 
使 用 “Kernel” 菜 单 更 改 当前 的 运算 核 。 运 算 核 的 配置 保存 在 Notebook 文件 中 ， 因 此 下 一 次 开 
启 Notebook 时 ， 将 自动 使 用 最 后 一 次 选择 的 运算 核 。 

感 兴趣 的 读者 可 以 试 试 添加 更 多 的 运算 核 ， 笔 者 在 Windows 系统 下 成 功 地 安装 了 PyPy、 
Julia、R、NodeJS 等 运算 核 。 


1.3 扩展 库 介 绍 


会 与 本 节 内 容 对 应 的 Notebook 为 : 01-intro/intro-300-libraryjipynb。 

Python 科学 计算 方面 的 内 容 由 许多 扩展 库 构成 。 本 书 将 对 编写 科学 计算 软件 时 常用 的 一 些 
扩展 库 进 行 详细 介绍 ， 这 里 先 简要 介绍 本 书 涉及 的 扩展 库 。 
1.3.1 数值 计算 库 

NumPy 为 Python 带 来 了 真正 的 多 维 数组 功能 ,并 且 提供 了 丰富 的 函数 库 来 处 理 这 些 数组 。 
在 下 面 的 例子 中 ， 使 用 如 下 公式 计算 r， 可 以 看 到 在 NumPy 中 使 用 数组 运算 替代 通常 需要 借助 
循环 的 运算 : 


4 4 4 4 4 4 4 
TI 3t5 7+9 11t13 
import numpy as np 
n = 166666 
np.sum(4.6 / np.r_[1:n:4, -3:-n:-4]) 
3.141572653589833 


SciPy 则 在 NumPy 基础 上 添加 了 众多 的 科学 计算 所 需 的 各 种 工具 ， 它 的 核心 计算 部 分 都 是 
一 些 久 经 考验 的 Fortran 数值 计算 库 ， 例 如 : 
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e 线性 代数 使 用 LAPACK 库 
e 快速 傅 里 叶 变 换 使 用 FFTPACK 库 
e 常 微分 方程 求解 使 用 ODEPACK 库 


。 非 线性 方程 组 求解 以 及 最 小 值 求解 等 使 用 MINPACK 库 
在 下 面 的 例子 中 ， 使 用 SciPy 中 提供 的 数值 积分 函数 quadO 计 算 x: 


from scipy.integrate import quad 
quad(lambda x:(1-x**2)**@.5, -1, 1)[6] * 2 
3.141592653589797 


1.3.2 符号 计算 库 


学 计算 库 相 结合 。 


的 结果 为 符号 表示 的 : 


from sympy import symbols, integrate, sqrt 
x = symbols("x") 

integrate(sqrt(1-x**2), (x, -1, 1)) * 2 
pi 


1.3.3 绘图 与 可 视 化 


SymPy 是 一 套数 学 符号 运算 的 扩展 库 ， 虽 然 与 一 些 专门 的 符号 运算 软件 相 比 ，SymPy 的 功 
能 以 及 运算 速度 都 还 是 较 弱 的 , 但 是 由 于 它 完全 采用 Python 编写 ， 因 此 能 够 很 好 地 与 其 他 的 科 


下 面 用 SymPy 提供 的 符号 积分 函数 integrate0 对 上 面 的 公式 进行 积分 运算 ， 可 以 看 到 运算 


matplotlib 是 Python 最 著名 的 绘图 库 ， 它 提供 了 一 整套 和 MATLAB 类 似 的 绘图 函数 集 ， 十 
分 适合 编写 短小 的 脚本 程序 进行 快速 绘图 。 此 外 ，matplotlib 采用 面向 对 象 的 技术 来 实现 ， 因 此 


组 成 图 表 的 各 个 元 素 都 是 对 象 ， 在 编写 较 大 的 应 用 


将 更 加 有 效 。 


程序 时 通过 面向 对 象 的 方式 使 用 matplotlib 


下 面 的 程序 绘制 隐 函 数 的 曲线 ， 结 果 如 图 1- 11 所 示 。 


x, y = np.mgrid[-2:2:566j，-2:2:566j] 
Z = (X##y2 + y##2 - 1)**3 - X**2 * yy**3 


pl.contourf(x, y, z, levels=[-1, 8], colors=[" 


pl.gca().set aspect("equal") 
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"red"]) 


库 进 行 封装 。 而 Mayavi2 则 在 TVTK 的 基础 上 添加 了 一 套 面向 应 用 的 方便 工具 ， 它 既 可 以 单独 
作为 3D 可 视 化 程序 使 用 ,也 可 以 很 方便 地 嵌入 到 TraitsUI 编 写 的 界面 程序 中 。 在 下 面 的 例子 中 ， 


-20 
-20 -15 -1.0 -05 00 05 10 1.5 2.0 


图 1-11 matplotib 绘制 心 形 隐 函 数 曲线 


VTK 是 一 套 功能 十 分 强大 的 三 维 数据 可 视 化 库 ，TVTK 库 在 标准 的 VTK 库 之 上 用 Traits 


使 用 


Mayavi 绘制 如 下 隐 函 数 的 曲面 ， 结 果 如 图 1-12 所 示 。 


9 9 
Ge ei 22 = =x223 -B07 =0 


%kmlab_plot 

from mayavi import mlab 
x, y, z = np.mgrid[-3:3:166j，-1:1:166j，-3:3:166j] 

f= (X**2 + 9.0/4*y**2 + Z**2 - 1)**3 - X**2 * Z**3 - 9.0/80 * y**2 * Zz**3 
contour = mlab.contour3d(x, y, z, f, contours=[8], color=(1, 6, 8)) 


图 1-12 使 用 Mayavi 绘 制 心 形 隐 函数 曲面 


1.3.4 数据 处 理 和 分 析 


Pandas 在 NumPy 的 基础 之 上 提供 类 似 电子 表格 的 数据 结构 DataFrame， 并 以 此 为 核心 提供 


大 量 的 数据 的 输入 和 输出、 清洗、 处 理 和 分 析 函 数 。 其 核心 运算 函数 使 用 Cython 编写 ,在 不 失灵 
活性 的 前 提 下 保证 了 函数 库 的 运算 速度 。 
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在 下 面 的 例子 


头 5 条 数据 ; 


import pandas as pd 
columns = "user id'， "age'， 'sex', "occupation'" ， "zip_code" 
df = pd.read_csv("../data/ml-168k/u.user", 

delimiter="|", header=None, names=columns) 


print df.head() 
user_id age sex 


1 


上 whNh ae 
wm 上 mw Nb 


24 
53 
23 
24 
33 


M 


E 
M 
M 
F 


Ph， 从 电影 打分 数据 MovieLens 中 读 入 用 户 数据 文件 uuser， 并 显示 其 中 的 


occupation zip_code 
technician 85711 


other 94643 
writer 32667 


technician 43537 


other 15213 


下 面 使 用 职业 栏 对 用 户 数据 进行 分 组 ， 计 算 每 组 的 平均 年 龄 ， 按 年 龄 排序 之 后 将 结果 显示 
为 柱状 图 ， 如 图 1-13 所 示 。 可 以 看 到 如 此 复杂 的 运算 在 Pandas 中 可 以 使 用 一 行 代 码 完成 ; 


df.groupby("occupation").age.mean().order().plot(kind="bar", figsize=(12, 4)) 


student 


entertainment 


1.3.5 界面 设计 


homemaker 


i i 
和 加 ” 有 5 BE 省 上 ~ 

职业 
图 1-13 使 用 Pandas 统 计 电影 打分 用 户 的 职业 


Python 可 以 使 月 


日 多 种 界面 库 编写 GUI 程序 ， 例 如 标准 库 中 自 带 的 以 TK 为 基础 的 Tkinter、 


以 wxWidgets 为 基础 的 wxPython 和 以 QT 为 基础 的 pyQt4 等 界面 库 。 但 是 使 用 这 些 界面 库 编写 


GUI 程序 仍然 是 一 件 十 分 繁杂 的 工作 。 为 了 让 读者 不 在 界面 设计 上 耗费 大 量 精力 ， 从 i 
意 力 集中 到 如 何 处 理 数据 上 去 ， 本 书 详细 介绍 了 使 用 Traits 库 设 计 图 形 界 面 程序 的 方法 。 


j 能 把 注 


Traits 库 分 为 Traits 和 TraitsUI 两 大 部 分 ，Traits 为 Python 添加 了 类 型 定义 的 功能 , 使 用 它 定 
义 的 Trait 属 性 具有 初始 化 、 校 验 、 代 理 、 事 件 等 诸多 功能 。 


TraitsUI 库 基 于 Traits 库 , 使 用 MVC( 模 型 一 视图 一 控制 器 ) 模 式 快速 定义 用 户 界面 , 在 最 简 
单 的 情况 下 ， 其 至 不 需要 写 一 句 界面 相关 的 代码 ， 就 可 以 通过 Traits 的 属性 定义 获得 一 个 可 以 
使 用 的 图 形 界面 。 使 用 TraitsUI 库 编写 的 程序 自动 支持 wxPython 和 pyQt 两 个 经 典 的 界面 库 。 


1.3.6 ”图像 处 理 和 计算 机 视 党 


OpenCV 是 一 套 开源 的 跨 平 台 计算 机 视觉 库 ， 可 用 于 开发 实时 的 图 像 处 理 、 计 算 机 视觉 以 
及 模式 识别 程序 。 它 提供 的 Python 包装 模块 可 调用 OpenCV 提供 的 大 部 分 功能 。 由 于 它 采 用 
NumPy 数组 表示 图 像 ， 因 此 能 很 方便 地 与 其 他 扩展 库 共享 图 像 数据 。 

在 下 面 的 例子 中 ， 读 入 图 像 moonjpg， 并 转换 为 二 值 图 像 。 找 到 二 值 图 像 中 黑白 区 域 相交 
的 边线 ， 并 计算 周 长 和 面积 。 然 后 通过 这 两 个 参数 计算 r。 


import cv2 

img = cv2.imread("moon.jpg", Cv2.IMREAD GRAYSCALE) 

_，bimg = cv2.threshold(img, 58, 255, cv2.THRESH_BINARY) 

contour, _ = cv2.findContours(bimg, cv2.RETR_EXTERNAL, cv2.CHAIN APPROX_TC89_L1) 
contour = cv2.approxPolyDP(contour[8], epsilon=2, closed=False) 

area = cv2.contourArea(contour) 

perimeter = cv2.arcLength(contour, True) 

perimeter**2 / (4 * area) 

3.176688313869952 


1.3.7 ”提高 运算 速度 


Python 的 动态 特性 虽然 方便 了 程序 的 开发 ,但 也 会 极 大 地 降低 程序 的 运行 速度 ,使 用 Cython 
可 以 将 添加 了 类 型 声明 的 Python 程序 编译 成 C 语 言 源 代码 , 再 编译 成 扩展 模块 ， 从 而 提高 程序 
的 运算 速度 。 使 用 Cython 既 能 实现 C 语 言 的 运算 速度 ， 也 能 使 用 Python 的 所 有 动态 特性 ， 极 
大 地 方便 了 扩展 库 的 编写 。 
下 面 是 按照 前 面 介绍 的 公式 使 用 循环 计算 x 的 源 程序 ， 使 用 cdef 关键 字 定义 变量 的 类 型 ， 
从 而 提高 程序 的 运行 效率 : 


X%%cython 
import cython 


@cython.cdivision(True) 
def calc pi(int n): 
cdef double pi = 6 
cdef int i 
for i in range(1, n, 4): 
pi+=4.0/1i 
for i in range(3, n, 4): 
pi -= 4.6 /ii 
return pi 
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调用 calc_pi0 来 计算 nt 的 近似 值 : 


calc_pi(1666666) 
3.141598653589821 


下 面 使 用 %timeit 比较 calc_pi0 和 NumPy 库 来 计算 nt 的 运算 时 间 : 


n = 1666666 

%timeit calc pi(n) 

%timeit np.sum(4.6 / np.r_[1:n:4, -3:-n:-4]) 
166 loops, best of 3: 3.9 ms per loop 

166 loops, best of 3: 5.94 ms per loop 


NumPy- 快 速 处 理 数据 


标准 的 Python 中 用 列表 (isb 保 存 一 组 值 ， 可 以 用 来 当 作 数 组 使 用 。 但 由 于 列表 的 元 素 可 以 
是 任何 对 象 , 因此 列表 中 保存 的 是 对 象 的 指针 。 这 样 的 话 , 为 了 保存 一 个 简单 的 列表 , 比如 [1,2,3]， 
需要 三 个 指针 和 三 个 整数 对 象 。 对 于 数值 运算 来 说 ， 这 种 结构 显然 比较 浪费 内 存 和 CPU 计算 
时 间 。 

此 外 ，Python 还 提供 了 array 模块 ， 它 所 提供 的 array 对 象 和 列表 不 同 ， 能 直接 保存 数值 ， 
和 C 语 言 的 一 维 数组 类 似 。 但 是 由 于 它 不 支持 多 维 数 组 ， 也 没有 各 种 运算 函数 ， 因 此 也 不 适合 
做 数值 运算 。 

Numpy 的 诞生 弥补 了 这 些 不 足 ，NumPy 提供 了 两 种 基本 的 对 象 : 

e@ ndarray: 英文 全 称 为 n-dimensional array object， 它 是 存储 单一 数据 类 型 的 多 维 数组 ， 后 

统一 称 之 为 数组 。 
e ufunc: 英文 全 称 为 universal function object， 它 是 一 种 能 够 对 数组 进行 处 理 的 特殊 
本 书 采用 Numpy 1.9 版本， 请 读者 运行 下 面 的 程序 以 查看 NumPy 的 版 本 号 : 


import numpy 
numpy.__version__ 
3 


2.1 ndarray 对 象 


A 与 本 节 内 容 对 应 的 Notebook 为 : 02-numpy/numpy-100-ndarray.ipynb。 


本 书 的 示例 程序 假设 用 以 下 推荐 的 方式 导入 NumPy 函数 库 : 


import numpy as np 


NumPy 中 使 用 ndarray 对 象 表示 数组 ， 它 是 整个 库 的 核心 对 象 ，NumPy 中 所 有 的 函数 都 是 
围绕 ndarray 对 象 进行 处 理 的 。ndarray 的 结构 并 不 复杂 ， 但 是 功能 却 十 分 强大 。 不 但 可 以 用 它 
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高 效 地 存储 大 量 的 数值 元 素 ， 从 而 提高 数组 计算 的 运算 速度 ， 还 能 用 它 与 各 种 扩展 库 进行 数据 
交换 。 本 节 的 内 容 可 能 会 有 些 枯燥 ,但 是 为 了 打下 一 个 良好 的 基础 ， 让 我 们 从 深入 理解 ndarray 
对 象 开始 学 习 Python 科学 计算 之 旅 。 

2.1.1 创建 

首先 需要 创建 数组 才能 对 其 进行 运算 和 操作 。 可 以 通过 给 aray0 函 数 传递 Python 的 序列 对 
象 来 创建 数组 ， 如 果 传 递 的 是 多 层 堪 套 的 序列 ， 将 创建 多 维 数组 (下 例 中 的 变量 9 


a = np.array([1, 2, 3, 4]) 
b = np.array((5, 6, 7, 8)) 
c= np.array([[1, 2, 3, 4], [4, 5, 6, 7], [7, 8, 9, 10]]) 


[5, 6, 7, 8] [[ 1, 2, 3, 4], 
[4, 5, 6, 7], 
[7, 8, 9, 10]] 


数组 的 形状 可 以 通过 其 shape 属性 获得 ， 它 是 一 个 描述 数组 各 个 轴 的 长 度 的 元 组 (tuple): 


a.shape b.shape c.shape 


数组 a 的 shape 属性 只 有 一 个 元 素 ,因此 它 是 一 维 数组 ,而 数组 c 的 shape 属性 有 两 个 元 素 ， 
因此 它 是 二 维 数组 ， 其 中 第 0 轴 的 长 度 为 3， 第 1 轴 的 长 度 为 4。 还 可 以 通过 修改 数组 的 shape 
属性 ,在 保持 数组 元 素 个 数 不 变 的 情况 下 ,改变 数组 每 个 轴 的 长 度 。 下面 的 例子 将 数组 c 的 shape 
属性 改 为 4,3), 注意 从 (3,4) 改 为 (4,3) 并 不 是 对 数组 进行 转 置 ， 而 只 是 改变 每 个 轴 的 大 小 ， 数 组 元 
素 在 内 存 中 的 位 置 并 没有 改变 : 


c.shape = 4, 3 


二 

array([[ 1, 2，3]， 
| 册 生态 
| 
[ 8, 9，16]]) 


当 设 置 某 个 轴 的 元 素 个 数 为 -1 时 ， 将 自动 计算 此 轴 的 长 度 。 由 于 数组 c 有 12 个 元 素 ， 因 
此 下 面 的 程序 将 数组 的 shape 属 性 改 成 了 (2,6): 


c.shape = 2, -1 

C 

array([[ 1, 2, 3, 4, 4, 5], 
[6, 7, 7, 8, 9, 10]]) 
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使 用 数组 的 reshape0 方 法 ， 可 以 创建 指定 形状 的 新 数组 ， 而 原 数组 的 形状 保持 不 变 : 


d = a.reshape((2,2)) # 也 可 以 用 a.reshape(2,2) 


[[1, 2], [1, 2, 3, 4] 
[3, 4]] 


数组 a 和 d 其 实 共享 数据 存储 空间 ， 因 此 修改 其 中 任意 一 个 数组 的 元 素 都 会 同时 修改 男 一 
个 数组 的 内 容 。 注 意 在 下 面 的 例子 中 ， 数 组 d 中 的 2 也 被 改 成 了 100: 


a[1] = 166 # 将 数组 a 的 第 1 个 元 素 改 为 166 


[ 1,100, 3, 4] [[ 1, 100], 
[ 3, 4]] 


2.1.2 元素 类 型 


数组 的 元 素 类 型 可 以 通过 dtype 属性 获得 。 在 前 面 的 例子 中 ， 创 建 数 组 所 用 的 序列 的 元 
素 都 是 整数 ， 因 此 所 创建 的 数组 的 元 素 类 型 是 整 型 ,并且 是 32 位 的 长 整 型 。 这 是 因为 笔者 所 
使 用 的 Python 是 32 位 的 ， 如 果 使 用 64 位 的 操作 系统 和 Python， 那 么 默认 整数 类 型 的 长 度 为 
64 位 。 


c.dtype 
dtype( 'int32') 


可 以 通过 dtype 参 数 在 创建 数组 时 指定 元 素 类 型 ,注意 float 类 型 是 64 位 的 双 精 度 浮 点 类 型 ， 
而 complex 是 128 位 的 双 精度 复数 类 型 : 


ai32 = np.array([1, 2, 3, 4], dtype=np.int32) 

af = np.array([1, 2, 3, 4], dtype=float) 

ac = np.array([1, 2, 3, 4], dtype=complex) 
ai32.dtype af.dtype ac.dtype 


dtype('int32') dtype('float64') dtype('complex128') 


在 上 面 的 例子 中 ， 传 递 给 dtype 参数 的 都 是 类 型 (type) 对 象 ， 其 中 float 和 complex 为 Python 
内 置 的 浮 点 数 类 型 和 复数 类 型 ， 而 npint32 是 NumPy 定义 的 新 的 数据 类 型 一 一 32 位 符号 整数 
类 型 。 

NumPy 也 有 自己 的 浮 点 数 类 型 : float16、 float32、float64 和 float128。 当 使 用 float64 作为 dtype 
参数 时 ， 其 效果 和 内 置 的 float 类 型 相同 。 
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在 需要 指定 dtype 参数 时 ， 也 可 以 传递 一 个 字符 串 来 表示 元 素 的 数值 类 型 。NumpPy 中 的 每 
个 数值 类 型 都 有 儿 种 字符 串 表示 方式 , 字符 串 和 类 型 之 间 的 对 应 关系 都 存储 在 typeDict 字 典 中 。 
下 面 的 程序 获得 与 float64 类 型 对 应 的 所 有 键 值 : 


[key for key, value in np.typeDict.items() if value is np.float64] 
[12; 中 "float64 "float ', ‘float’, f3 ‘double’, “Float64 ] 


完整 的 类 型 列表 可 以 通过 下 面 的 语句 得 到 , 它 将 ypeDict 字 典 中 所 有 的 值 转换 为 一 个 集合 ， 
从 而 去 除 其 中 的 重复 项 : 


set(np.typeDict.values()) 


{numpy.bool_ ， numpy.object_， numpy.string_， numpy .unicode_， 
numpy .void, numpy .int8, numpy .int16, numpy .int32, 
numpy .int32, numpy .int64, numpy .uint8, numpy .uint16, 
numpy .uint32, numpy .uint32, numpy .uint64, numpy .float16, 
numpy .float32, numpy .float64, numpy .float64, numpy .datetime64, 
numpy .timedelta64, numpy .complex64, numpy .complex128, numpy .complex128} 


上 面 显示 的 数值 类 型 与 数组 的 dtype 属性 是 不 同 的 对 象 ,通过 dtype 对 象 的 type 属 性 可 以 获 
得 与 其 对 应 的 数值 类 型 ; 


c.dtype.type 
numpy .int32 


通过 NumPy 的 数值 类 型 也 可 以 创建 数值 对 象 ， 下 面 创 建 一 个 16 位 的 符号 整数 对 象 ， 它 与 
Python 的 整数 对 象 不 同 的 是 ， 它 的 取 值 范围 有 限 ， 因 此 计算 200*200 会 溢出 ， 得 到 一 个 负数 ， 
这 一 点 与 C 语 言 的 16 位 整数 的 结果 相同 : 


a = np.int16(266) 
a*a 


-25536 

另外 值得 注意 的 是 ，NumPy 的 数值 对 象 的 运算 速度 比 Python 的 内 署 类 型 的 运算 速度 慢 很 
多 ， 如 果 程 序 中 需要 大 量 地 对 单个 数值 运算 ， 应 当 尽 量 避 免 使 用 NumPy 的 数值 对 象 。 下 面 比 
较 了 Python 内 置 的 oat 类 型 与 NumPy 的 双 精 度 浮 点 数值 oat64 的 乘法 运算 的 速度 : 


v1 = 3.14 

v2 = np.float64(v1) 

%timeit v1i*v1 

%timeit v2*v2 

16666666 loops, best of 3: 76.1 ns per loop 
16666666 loops, best of 3: 178 ns per loop 
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使 用 astype( 方 法 可 以 对 数组 的 元 素 类 型 进行 转换 ， 下 面 将 浮 点 数 数组 tl 转换 为 32 位 整数 
数组 ， 将 双 精 度 的 复数 数组 已 转换 成 单 精 度 的 复数 数组 : 


t1 = np.array([1, 2, 3, 4], dtype=np.float) 
t2 = np.array([1, 2, 3, 4], dtype=np.complex) 
t3 = t1.astype(np.int32) 

t4 = t2.astype(np.complex64) 


2.1.3 自动 生成 数组 


前 面 的 例子 都 是 先 创建 一 个 Python 的 序列 对 象 ， 然 后 通过 array0 将 其 转换 为 数组 ， 这 样 做 
显然 效率 不 高 。 因 此 NumpPy 提供 了 很 多 专门 用 于 创建 数组 的 函数 。 下 面 的 每 个 函数 都 有 一 些 
关键 字 参 数 ， 具 体 用 法 请 查看 函数 说 明 。 

arange0 类 似 于 内 置 函 数 range0， 通 过 指定 开始 值 、 终 值 和 步 长 来 创建 表示 等 差 数 列 的 一 维 
数组 ， 注 意 所 得 到 的 结果 中 不 包含 终 值 。 例 如 下 面 的 程序 创建 开始 值 为 0、 终 值 为 1、 步 长 为 
0.1 的 等 差 数 组 ， 注 意 终 值 1 不 在 数组 中 : 


np.arange(0, 1, 0.1) 
array([ 0. ， 0.1, 0.2, 0.3,0.4, 6.5， 86.6， 6.7， 6.8， 6.9]) 


linspace0 通 过 指定 开始 值 、 终 值 和 元 素 个 数 来 创建 表示 等 差 数 列 的 一 维 数组 ， 可 以 通过 
endpoint 参数 指定 是 否 包含 终 值 , 默认 值 为 True, 即 包含 终 值 。 下面 两 个 例子 分 别 演示 了 endpoint 
为 True 和 False 时 的 结果 ， 注 意 endpoint 的 值 会 改变 数组 的 等 差 步 长 : 

np.linspace(6，1，16) # 步 长 为 1/9 


array([ 6. ， 6.11111111， 6.22222222， 6.33333333， 8.44444444， 
@.55555556, 6.66666667， 8.77777778， 8.88888889， 1. 1 


np.linspace(06，1，10，endpoint=False) # 步 长 为 1/16 

Sayv(o O10 OD Oa OD OG O70 Ol]) 

logspace0 和 1linspace0 类 似 , 不 过 它 所 创建 的 数组 是 等 比 数列 。 下 面 的 例子 产生 从 10" 到 10?、 
有 5 个 元 素 的 等 比 数列 ， 注 意 起 始 值 0 表示 10"， 而 终 值 2 表示 10?: 


np.logspace(@, 2, 5) 
array([ 1. .1277660. 110 ， 31.6227766 ， 160. ]) 


基数 可 以 通过 base 参数 指 定 , 其 默认 值 为 10。 下 面 通过 将 base 参 数 设置 为 2, 并 设置 endpoint 
参数 为 False， 创 建 一 个 比例 为 2 了 ?的 等 比 数 组 ， 此 等 比 数组 的 比值 是 音乐 中 相差 半音 的 两 个 
音阶 之 间 的 频率 比值 ， 因 此 可 以 用 它 计算 一 个 八 度 中 所 有 半音 的 频率 : 


np.logspace(@, 1, 12, base=2, endpoint=False) 
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array([ 1. ， 1.65946389， 1.12246265， 1.18926712， 1.25992165， 
1.33483985， 1.41421356， 1.49836768， 1.58746165， 1.68179283， 
1.78179744， 1.88774863]) 


Zeros0、ones0、empty0 可 以 创建 指定 形状 和 类 型 的 数组 。 其 中 empty0 只 分 配 数 组 所 使 用 的 
内 存 ， 不 对 数组 元 素 进行 初始 化 操作 ， 因 此 它 的 运行 速度 是 最 快 的 。 下 面 的 程序 创建 一 个 形状 
为 2.3)、 元 素 类 型 为 整数 的 数组 ， 注 意 其 中 的 元 素 值 没有 被 初始 化 : 


SN 


np.empty((2,3)，np.int) 
array([[1678523331，16865353216，1673741824]， 
[1877936128，1682136432，1684227584]] ) 
而 zeros0 将 数组 元 素 初始 化 为 0，ones0 将 数组 元 素 初始 化 为 1。 下 面 创建 一 个 长 度 为 4、 
元 素 类 型 为 整数 的 一 维 数组 ， 并 且 元 素 全 部 被 初始 化 为 0: 


np.zeros(4，np.int) 
array([8, 6, 8, 8]) 


full0 将 数组 元 素 初始 化 为 指定 的 值 : 


np.full(4, np.pi) 
array([ 3.14159265, 3.14159265, 3.14159265, 3.14159265]) 
此 外 ，zeros_like0、ones like0、empty_like0、fullL_like0 等 函数 创建 与 参数 数组 的 形状 和 类 
型 相同 的 数组 ， 因 此 zeros_like(a) 和 zeros(a.shape, adtype) 的 效果 相同 。 
frombuffer) 、fromstring0 、fromfile0 等 函数 可 以 从 字 节 序列 或 文件 创建 数组 。 下 面 以 
fromstring0 为 例 介绍 它们 的 用 法 ， 先 创建 含 8 个 字符 的 字符 串 s: 


s = "abcdefgh" 


Python 的 字符 串 实 际 上 是 一 个 字 节 序列 ， 每 个 字符 占 一 个 字 节 。 因 此 如 果 从 字符 串 s 创 建 
-个 8 位 的 整数 数组 ， 所 得 到 的 数组 正好 就 是 字符 串 中 每 个 字符 的 ASCI 编码 : 


np.fromstring(s, dtype=np.int8) 
array([ 97, 98, 99，166，161，162，163，164]，dtype=int8) 


如 果 从 字符 串 s 创建 16 位 的 整数 数组 ， 那 么 两 个 相 邻 的 字 节 就 表示 一 个 整数 ， 把 字 节 98 
和 字 节 97 当 作 一 个 16 位 的 整数 ， 它 的 值 就 是 98*256+97 =25185。 可 以 看 出 ，16 位 的 整数 是 以 
低位 字 节 在 前 dittle-endian) 的 方式 保存 在 内 存 中 的 。 


print 98*256+97 

np.fromstring(s, dtype=np.int16) 

25185 

array([25185, 25699, 26213, 26727], dtype=int16) 
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如 果 把 整个 字符 串 转换 为 一 个 64 位 的 双 精 度 浮 点 数 数组 ， 那 么 它 的 值 是 : 


np.fromstring(s, dtype=np.float) 
array([ 8.54688322e+194]) 


显然 这 个 结果 没有 什么 意义 , 但 是 如 果 我 们 用 C 语 言 的 二 进 制 方式 写 了 一 组 double 类 型 的 
数值 到 某 个 文件 中 ， 那 就 可 以 从 此 文件 读 取 相应 的 数据 ， 并 通过 fromstring0 将 其 转换 为 float64 
类 型 的 数组 ， 或 者 直接 使 用 fromfile0 从 二 进 制 文件 读 取 数据 。 

fromstring0 会 对 字符 串 的 字 节 序列 进行 复制 ， 而 使 用 frombuffer0 创 建 的 数组 与 原始 字符 串 


共享 内 存 。 由 于 字符 串 是 只 读 的 ， 因 此 无 法 修改 所 创建 的 数组 的 内 容 : 


buf = np.frombuffer(s, dtype=np.int16) 
buf[1] = 19 


ValueError Traceback (most recent call last) 


<ipython-input-52-f523db231ae5> in <module>() 
1 buf = np.frombuffer(s, dtype=np.int16) 
----> 2 buf[1] = 16 


ValueError: assignment destination is read-only 


Python 中 还 有 一 些 类 型 也 支持 buffer 接口 , 例如 bytearray、array.array 等 。 在 后 面 的 章节 中 ， 
我 们 会 介绍 如 何 使 用 这 些 对 象 实现 动态 数组 的 功能 。 
还 可 以 先 定义 一 个 从 下 标 计 算数 值 的 函数 ， 然 后 用 fromfunction0 通 过 此 函数 创建 数组 : 


def func(i): 
return i%4+1 


np.fromfunction(func, (10,)) 

RCR 

fromfunction0 的 第 一 个 参数 是 计算 每 个 数组 元 素 的 函数 ， 第 二 个 参数 指定 数组 的 形状 。 因 
为 它 支 持 多 维 数组 ， 所 以 第 二 个 参数 必须 是 一 个 序列 。 上 例 中 第 二 个 参数 是 长 度 为 1 的 元 组 
(10)， 因 此 创建 了 一 个 有 10 个 元 素 的 一 维 数组 。 

下 面 的 例子 创建 一 个 表示 九 九 乘法 表 的 二 维 数组 , 输出 的 数组 a 中 的 每 个 元 素 afi,j] 都 等 于 
func2(i, j): 


def func2(i, j): 
return (i + 1) * (j + 1) 
np.fromfunction(func2, (9,9)) 
RE 伟人 全 二 全 二 
| 
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2.1.4” 存 取 元 素 
可 以 使 用 和 列表 相同 的 方式 对 数组 的 元 素 进行 存 取 : 


a = np.arange(16) 


a 
array([6，1， 


® all:-1:2]: 


2, 3, 4, 5, 6, 7, 8, 9]) 


a[5]: 用 整数 作为 下 标 可 以 获取 数组 中 的 某 个 元 素 。 


bd 
| e a[3:5]: 用 切片 作为 下 标 获取 数组 的 一 部 分 ， 包 括 a[3] 但 不 包括 a[5]。 
3 @ a[:5]: 切片 中 省 略 开始 下 标 ， 表 示 从 a[0] 开 始 。 
上 : e a[:-1]: 下 标 可 以 使 用 负数 ， 表 示 从 数组 最 后 往 前 数 。 
名 | a[5] a[3:5] a[:5] a[:-1] 
数 ， < 
扣 | S [3, 4] 2 [2 


切片 中 的 第 三 个 参数 表示 步 长 ， 2 表示 隔 一 个 元 素 取 一 个 元 素 。 


ea[::-1]: 省 略 切 片 的 开始 下 标 和 结束 下 标 ， 步 长 为 -1， 整 个 数组 头 尾 颠 倒 。 


@ al[5:1:-2]: 


[1, 3, 5, 7] 
下 标 还 可 以 


a[2:4] = 166 
日 


array([ ©, 


和 列表 不 同 
一 块 数据 存储 空 


步 长 为 负数 时 ， 开 始 下 标 必 须 大 于 结束 下 标 。 


[Ee rc | 
用 来 修改 元 素 的 值 : 
，161 
:Es ek 
的 是 , 通过 切片 获取 的 新 的 数组 是 原始 数组 的 一 个 视图 。 它 与 原始 数组 共享 同 
间 。 下 面 的 程序 将 b 的 第 2 个 元 素 修改 为 -10，a 的 第 5 个 元 素 也 同时 被 修改 为 


-10， 因 为 它们 在 内 存 中 的 地 址 相同 。 
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b = a[3:7] # 通过 切片 产生 一 个 新 的 数组 b，b 和 a 共享 同一 块 数据 存储 空间 
b[2] = -19 # 将 b 的 第 2 个 元 素 修改 为 -16 


[E1015 A 10 6 TO I 1 100 101. 0 10.0 7 8. 0] 


除了 使 用 切片 下 标 存 取 元 素 之 外 , NumPy 还 提供 了 整数 列表 、 整 数 数组 和 布尔 数组 等 几 种 
高 级 下 标 存 取 方法 。 

当 使 用 整数 列表 对 数组 元 素 进行 存 取 时 ， 将 使 用 列表 中 的 每 个 元 素 作 为 下 标 。 使 用 列表 作 
为 下 标 得 到 的 数组 不 和 原始 数组 共享 数据 : 


x = np.arange(10, 1, -1) 
x 
apgay([19 03 /0 D4 2 有 


e x[[3,3, 1, 8]: 获取 x 中 的 下 标 为 3、3、1、8 的 4 个 元 素 ， 组 成 一 个 新 的 数组 。 
ex[[3,3,-3,8]]: 下 标 可 以 是 负数 ，-3 表示 取 倒 数 第 3 个 元 素 (从 1 开始 计数 )。 


a=x[[3，3，1，8]] 
b = x[[3，3，-3，8]] 


[7, 7, 9, 2] [7, 7, 4, 2] 
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下 面 修改 b[2] 的 值 ， 但 是 由 于 它 和 x 不 共享 内 存 ， 因 此 x 的 值 不 变 : 


[7 72100 2 [10NEO oN 6 5 a3 2 
整数 序列 下 标 也 可 以 用 来 修改 元 素 的 值 : 


X[[3,5,1]] = -1, 27 -3 
x 
SPnayf[JB <3 8 =1y Or "2 37 ZI) 


当 使 用 整数 数组 作为 数组 下 标 时 ， 将 得 到 一 个 形状 和 下 标 数组 相同 的 新 数组 ， 新 数组 的 每 
个 元 素 都 是 用 下 标 数组 中 对 应 位 置 的 值 作为 下 标 从 原 数组 获得 的 值 。 当 下 标 数组 是 一 维 数组 时 ， 
结果 和 用 列表 作为 下 标的 结果 相同 : 


x = np.arange(16,1,-1) 
x[np.array([3,3,1,8])] 
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array([7, 7, 9, 2]) 
而 当下 标 是 多 维 数组 时 ， 得 到 的 也 是 多 维 数组 : 
x[np.array([[3,3,1,8],[3,3,-3,8]])] 


array([[7, 7, 9, 2], 
[7, 7, 4, 21]) 


可 以 将 上 述 操 作 理解 为 : 先 将 下 标 数组 展 平 为 一 维 数组 ， 并 作为 下 标 获得 一 个 新 的 一 维 数 
组 ， 然 后 将 其 形状 修改 为 下 标 数 组 的 形状 : 


x[[3,3,1,8,3,3,-3,8]].reshape(2,4) # 改变 数组 形状 
array([[7, 7, 9, 2], 
[7, 7, 4, 2]]) 

当 使 用 布尔 数组 b 作为 下 标 存 取 数 组 x 中 的 元 素 时 , 将 获得 数组 x 中 与 数组 b 中 Tme 对 应 
的 元 素 。 使 用 布尔 数组 作为 下 标 获得 的 数组 不 和 原始 数组 共享 数据 内 存 ， 注 意 这 种 方式 只 对 应 
于 布尔 数组 ， 不 能 使 用 布尔 列表 。 

x = np.arange(5,6,-1) 

raytlos 43.25 TI 


布尔 数组 中 下 标 为 02 的 元 素 为 Tme， 因 此 获取 x 中 下 标 为 0,2 的 元 素 : 
x[np.array([True, False, True, False, False])] 
array([5, 3]) 
如 果 是 布尔 列表 ， 就 把 True 当 作 1， 把 False 当 作 0， 按 照 整数 序列 方式 获取 x 中 的 元 素 : 


x[[True, False, True, False, False]] 


array([4, 5, 4, 5, 5]) 


在 NumPy 1.10 之 后 的 版 本 中 ， 布 尔 列表 会 被 当 作 布 尔 数组 ， 因 此 上 面 的 运行 结果 会 变 
成 array([5, 3])。 


布尔 数组 的 长 度 不 够 时 ， 不 够 的 部 分 都 当 作 False: 


x[np.array([True, False, True, True])] 


array([5, 3, 2]) 


布尔 数组 的 下 标 也 可 以 用 来 修改 元 素 : 


x[np.array([True，False，True，True])] = -1，-2，-3 
X 
array([-1， 4，-2，-3， 1]) 


布尔 数组 一 般 不 是 手工 产生 , 而 是 使 用 布尔 运算 的 ufunc 函数 产生 , 关于 ufunc 函数 请 参照 
下 一 节 的 介绍 。 下 面 我 们 举 一 个 简单 的 例子 说 明 布尔 数组 下 标的 用 法 : 


x = np.random.randint(86，18，6) # 产生 一 个 长 度 为 6， 元 素 值 为 8 到 9 的 随机 整数 数组 
x > 


[8, 1, 5, 6, 2, 7] [ True, False, False, True, False, True] 
表达 式 x > 5 将 数组 x 中 的 每 个 元 素 和 5 进行 大 小 比较 ， 得 到 一 个 布尔 数组 ，True 表示 x 
中 对 应 的 值 大 于 5。 我 们 可 以 使 用 x>5 所 得 到 的 布尔 数组 收集 x 中 所 有 大 于 5 的 数值 : 


x[x > 5] 
array([8, 6, 7]) 


2.1.5 ”多维 数组 
多 维 数组 的 存 取 和 一 维 数组 类 似 ， 因 为 多 维 数组 有 多 个 轴 ， 所 以 它 的 下 标 需 要 用 多 个 值 来 


表示 。NumPy 采用 元 组 作为 数组 的 下 标 ， 元 组 中 的 每 个 元 素 和 数组 的 每 个 轴 对 应 。 图 2-1 显示 
了 一 个 shape 为 (6, 6) 的 数组 a， 图 中 用 不 同 颜色 和 线 型 标 出 各 个 下 标 所 对 应 的 选择 区 域 。 


图 2-1 使 用 数组 切片 语法 访问 多 维 数组 中 的 元 素 


为 什么 使 用 元 组 作为 下 标 

Python 的 下 标语 法 (用 [| 存 取 序 列 中 的 元 素 ) 本 身 并 不 支持 多 维 , 但 是 可 以 使 用 任何 对 象 作为 
下 标 ， 因 此 NumPy 使 用 元 组 作为 下 标 存 取 数组 中 的 元 素 ， 使 用 元 组 可 以 很 方便 地 表示 多 个 轴 
的 下 标 。 虽然 在 Python 程序 中 经 常用 圆 括号 将 元 组 的 元 素 括 起 来 ， 但 其 实 元 组 的 语法 只 需要 用 
过 号 隔 开元 素 即 可 ， 例 如 xy=yx 就 是 用 元 组 交换 变量 值 的 一 个 例子 。 因 此 al1,2] 和 al(1,2)] 完 全 
相同 ， 都 是 使 用 元 组 (12) 作 为 数组 a 的 下 标 。 
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读者 也 许 会 对 如 何 创建 图 中 的 二 维 数 组 感到 好 奇 。 它 实 际 上 是 一 个 加 法 表 , 由 纵向 量 (0, 10， 
20, 30, 40, 50) 和 横向 量 (0, 1, 2, 3, 4, 3) 的 元 素 相 加 而 得 。 可 以 用 下 面 的 语句 创建 它 ， 至 于 其 原理 ， 
将 在 后 面 的 章节 进行 讨论 。 


a = np.arange(6，66，16) .reshape(-1，1) + np.arange(6，6) 
a 
Wel 
Bh Ry 
[L200 21 225 5 25352429]; 
让 
[46，41，42，43，44，45]， 
[590751 5952 53, 54s SS 


图 2-1 中 的 下 标 都 是 有 两 个 元 素 的 元 组 , 其 中 的 第 0 个 元 素 与 数组 的 第 0 轴 ( 纵 轴 ) 对 应 , 而 
第 1 个 元 素 与 数组 的 第 1 轴 ( 模 轴 ) 对 应 。 下 面 是 图 中 各 种 多 维 数组 切片 的 运算 结果 : 


aloF 3:51 af4:s .4:1 | | gb | 


[3, 4] [CE44 A451 [2012 232 42 5 20. 220241 
[54, 55]] [406, 42, 44]] 


如 果 下 标 元 组 中 只 包含 整数 和 切片 ， 那 么 得 到 的 数组 和 原始 数组 共享 数据 ， 它 是 原 数 组 的 
视图 。 下 面 的 例子 中 ， 数 组 b 是 a 的 视图 ， 它 们 共享 数据 ， 因 此 修改 b[0] 时 ， 数 组 a 中 对 应 的 
元 素 也 被 修改 : 

b = a[6，3:5] 
b[e] = -b[9] 
a[86，3:5] 
array([-3， 4]) 


因为 数组 的 下 标 是 一 个 元 组 ， 所 以 我 们 可 以 将 下 标 元 组 保存 起 来 , 用 同一 个 元 组 存 取 多 个 
数组 。 在 下 面 的 例子 中 ，a[idx] 和 a[::2,2:] 相 同 ，a[idxJ[idx] 和 a[::2,2:][::2,23] 相 同 。 


idx = slice(None, None, 2), slice(2,None) 
a[idx a[idx][idx] 


[253 4 S51] EA Sl 
[22, 23, 24, 25], [44, 45]] 
[42, 43, 44, 45]] 


切片 (slice) 对 象 
根据 Python 的 语法 ， 在 [中 可 以 使 用 以 冒号 隔 开 的 两 个 或 三 个 整数 表示 切片 ， 但 是 单独 生 


成 切片 对 象 时 需要 使 用 slice0 来 创建 。 它 有 三 个 参数 ， 分 别 为 开始 值 、 结 束 值 和 间隔 步 长 ， 当 
这 些 值 需 要 省 略 时 可 以 使 用 None。 例 如 ，alslice(None,None,None),2] 和 a[:,2] 相 同 。 


Python 的 内 置 函 数 slice0 创 建 下 标 比较 麻烦 , 因此 NumPy 提 供 了 一 个 s 对象 来 帮助 我 们 
创建 数组 下 标 ， 请 注意 s_ 实 际 上 是 IndexExpression 类 的 一 个 对 象 : 


Pi5sals2 Zl 
(slice(None, None, 2), slice(2, None, None)) 


s 为 什么 不 是 函数 

根据 Python 的 语法 ， 只 有 在 中 括号 [中 才能 使 用 以 冒号 隔 开 的 切片 语法 ， 如 果 s 是 函数 ， 
那么 这 些 切片 必须 使 用 slice0 创 建 。 类 似 的 对 象 还 有 mgrid 和 ogrid 等 ， 后 面 我 们 会 学 习 它 们 的 
用 法 。Python 的 下 标语 法 实际 上 会 调用 _getitem_() 方 法 ， 因 此 我 们 可 以 很 容易 自己 实现 S 对 象 
的 功能 

class S(object): 


def _ getitem (self, index): 
return index 


在 多 维 数组 的 下 标 元 组 中 ， 也 可 以 使 用 整数 元 组 或 列表 、 整 数 数组 和 布尔 数组 ， 如 图 2-2 
所 示 。 当 下 标 中 使 用 这 些 对 象 时 ， 所 获得 的 数据 是 原始 数据 的 副本 ， 因 此 修改 结果 数组 不 会 改 
变 原始 数组 。 


请 烨 凋 户 调 这 -人 dunN 


第 1 轴 


a[ (0,1,2,3), (1,2,3,4)] a 回国 |， 
1 
3:, [0,2,5 
sd 20 21 园 [| 24 25 


mask = np.array([1,6,1,6,6,1]， 
dtype=np.bool) 138 


1 1 
1 1 1 
1 1 asl 
44 1 
1 1 


图 2-2 使 用 整数 序列 和 布尔 数组 访问 多 维 数组 中 的 元 素 


在 a[(0,1,23),(1,2,3,4)] 中 ， 下 标 仍然 是 一 个 有 两 个 元 素 的 元 组 ， 元 组 中 的 每 个 元 素 都 是 一 个 
整数 元 组 ， 分 别 对 应 数组 的 第 0 轴 和 第 1 轴 。 从 两 个 序列 的 对 应 位 置 取出 两 个 整数 组 成 下 标 ， 
于 是 得 到 的 结果 是 : af0.1]]、a[1.2]、a[2,3]、a[3.4] 。 

ali(es1s 2 (2 35a) 

array([ 1, 12, 23, 34]) 
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在 a[3;, [0.2.5] 中 ， 第 0 轴 的 下 标 是 一 个 切片 对 象 ， 它 选取 第 3 行 之 后 的 所 有 行 ， 第 1 轴 的 


下 标 是 整数 列表 ， 它 选取 第 0、 第 2 和 第 5 列 。 


a[l3:, [98,2,5]] 
array([[36，32，35]， 
[46，42，45]， 
[56，52，55]]) 
在 almask, 2] 中 ， 第 0 轴 的 下 标 是 一 个 布尔 数组 ， 它 选取 第 0、 第 2 和 第 5 行 ， 第 1 轴 的 下 
标 是 一 个 整数 ， 它 选取 第 2 列 。 
mask = np.array([1,6,1,6,6,1]，dtype=np.bool) 
a[mask, 2] 
array([ 2, 22, 52]) 
: 意 ， 如 果 mask 不 是 布尔 数组 而 是 整数 数组 、 列 表 或 元 组 ， 就 按照 以 整数 数组 作为 下 标 
的 方式 进行 运算 : 


maskl = np.array([1,6,1,6,6,1]) 
mask2 = [True,False, True,False,False, True] 
a[mask1, 2] a[mask2, 2] 


os ee A | 
当下 标的 长 度 小 于 数组 的 维 数 时 ， 剩 余 的 各 轴 所 对 应 的 下 标 是 “:”， 即 选取 它们 的 所 有 
数据 : 
a[[1,2],:] a[[1,2]] 


[i011 412 130140 151, [170 1412 130 14 0 15 
[26302150223023 247 2511 [20 21 22 3 24. .251 


当 所 有 轴 都 用 形状 相同 的 整数 数组 作为 下 标 时 ， 得 到 的 数组 和 下 标 数组 的 形状 相同 : 


x = np.array([[6,1],[2,3]]) 
y = np.array([[-1,-2],[-3,-4]]) 
a[x,y] 
array([[ 5, 14], 
[239321) 


效果 和 下 面 的 程序 相同 : 


a[(8,1,2,3),(-1,-2,-3,-4)].reshape(2,2) 
array([[ 5, 14], 


[23，32]]) 


当 没有 指定 第 1 轴 的 下 标 时 ， 使 用 “:” 作 为 下 标 ， 因 此 得 到 了 一 个 三 维 数组 


a[x] 
aceayG[ DIESEL 23 4 5 
10.11012> 13145 15]]S 


PL20 R212 3 2745 
[30, 31, 32, 33, 34, 35]]]) 


可 以 使 用 这 种 以 整数 数组 作为 下 标的 方式 快速 蔡 换 数组 中 的 每 个 元 素 , 例如 有 一 个 表示 索 
引 图 像 的 数组 image， 以 及 一 个 调 色 板 数组 palette， 则 palette[image] 可 以 得 到 通过 调 色 板 着 色 之 
后 的 彩色 图 像 : 


palette = np.array( [ [8,6,6]， 
[255,8,8], 
[8,255,6]， 
[8,6,255]， 
[255,255,255] ] ) 

image = np.array( [ [ 8, 1, 2, 6 ]， 

[0 3 ome ST 

palette[image] 

array([[[ 6， 6， 98], 

255 0 A 

| BS 

[ 9 6 9]], 


[E009 
[ @, ©, 255], 
[255, 255, 255], 
CE CMD 


2.1.6 ”结构 数组 


在 C 语 言 中 我 们 可 以 通过 stmuct 关 键 字 定义 结构 类 型 ,结构 中 的 字段 占据 连续 的 内 存 空间 。 
类 型 相同 的 两 个 结构 所 占用 的 内 存 大 小 相同 ， 因 此 可 以 很 容易 定义 结构 数组 。 和 C 语言 一 样 ， 
在 NumPy 中 也 很 容易 对 这 种 结构 数组 进行 操作 。 只 要 NumPy 中 的 结构 定义 和 C 语 言 中 的 结构 
定义 相同 ， 就 可 以 很 方便 地 读 取 C 语言 的 结构 数组 的 二 进 制 数 据 ， 将 其 转换 为 NumpPy 的 结构 
数组 。 
假设 我 们 需要 定义 一 个 结构 数组 ， 它 的 每 个 元 素 都 有 name、age 和 weight 字段 。 在 NumPy 
中 可 以 如 下 定义 : 
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persontype = np.dtype({ © 
'names':['name', 'age', 'weight'], 
"formats':['S30','i', 'f']}, align=True) 

a = np.array([("Zhang", 32, 75.5), ("Wang", 24, 65.2)], © 
dtype=persontype) 


@ 我 们 先 创建 一 个 dtype 对象 persontype, 它 的 参数 是 一 个 描述 结构 类 型 的 各 个 字段 的 字典 。 
字典 有 两 个 键 : names 和 Yormats'。 每 个 键 对 应 的 值 都 是 一 个 列表 。mames 定 义 结构 中 每 个 字段 
的 名 称 ， 而 formats 则 定义 每 个 字段 的 类 型 。 这 里 我 们 使 用 类 型 字符 串 定义 字段 类 型 ; 

e 'S30: 长 度 为 30 个 字 节 的 字符 串 类 型 ， 由 于 结构 中 的 每 个 元 素 的 大 小 必须 固定 ， 因 此 

需要 指定 字符 串 的 长 度 。 

e 32 位 的 整数 类 型 ， 相 当 于 np.int32。 

e ?了 ; 32 位 的 单 精度 浮 点 数 类 型 ， 相 当 于 np-float32。 

@ 然 后 调用 array0 以 创建 数组 ,通过 dtype 参 数 指定 所 创建 的 数组 的 元 素 类 型 为 persontype。 

下 面 查看 数组 a 的 元 素 类 型 : 


a.dtype 
dtype({'names':['name','age', 'weight'], 'formats':['S38"','<i4','<f4'], 
"offsets':[0,32,36], 'itemsize':406}, align=True) 
还 可 以 用 包含 多 个 元 组 的 列表 来 描述 结构 的 类 型 : 
dtype([('name'’, '|S30'), ('age'’, '<i4'), ('weight', '<f4')]) 
其 中 形 如 “(字段 名 ,类 型 描述 )” 的 元 组 描述 了 结构 中 的 每 个 字段 。 类 型 字符 串 前 面 的 Tm、'<"、 
> 等 字符 表示 字段 值 的 字 节 顺序 : 
e |; 忽视 字 节 顺序 。 
e <: 低位 字 节 在 前 ， 即 小 端 模式 (ittle endian)。 
e >: 高 位 字 节 在 前 ， 即 大 端 模式 (big endian)。 
结构 数组 的 存 取 方 式 和 一 般 数 组 相同 ,通过 下 标 能 够 取得 其 中 的 元 素 , 注意 元 素 的 值 看 上 
去 像 是 元 组 ， 实 际 上 是 结构 : 
print a[6] 
a[8] .dtype 
CZhane 32 75:5) 
dtype({'names':['name', 'age', 'weight'], 'formats':['S38','<i4','<f4'], 
"offsets':[0,32,36], 'itemsize':40}, align=True) 


我 们 可 以 使 用 字段 名 作为 下 标 获取 对 应 的 字段 值 : 


a[8]["name"] 


"Zhang 


a[0] 是 一 个 结构 元 素 ， 它 和 数组 a 共享 内 存 数据 ， 因 此 可 以 通过 修改 它 的 字段 来 改变 原始 
数组 中 对 应 元 素 的 字段 : 


1]["name"] 

‘Li 

荆 们 不 但 可 以 获得 结构 元 素 的 某 个 字段 ,而 且 可 以 直接 获得 结构 数组 的 字段 , 返回 的 是 原 
始 数组 的 视图 ， 因 此 可 以 通过 修改 b[0] 来 改变 a[0]["age"]: 


print a[86]["age"] 
40 


通过 atostring0 或 atofile0 方 法 ， 可 以 将 数组 a 以 二 进 制 的 方式 转换 成 字符 串 或 写 入 文件 ; 
a.tofile("test.bin") 


利用 下 面 的 C 语 言 程序 可 以 将 testbin 文件 中 的 数据 读 取出 来 。%96file 为 IPython 的 魔法 命 
令 ， 它 将 该 单元 格 中 的 文本 保存 成 文件 read_struct_array.c: 


%%file read_struct_array.c 
#include <stdio.h> 


struct person 


{ 
char name[36]; 
int age; 
float weight; 
也 


struct person p[3]; 


void main () 
| 
FEED) 
Es 
fp=fopen( "test.bin", "rb"); 
fread(p, sizeof(struct person), 2, fp); 
fclose(fp); 
for(i=0;i<2;i++) 
{ 
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printf("%s %d %f\n", p[i].name, p[i].age, p[i].weight); 


} 
在 IPython 中 可 以 通过 ! 执 行 系统 命令 ， 下 面 调用 gcc 编 译 前 面 的 C 语 言 程序 并 执行 : 


!gcc read_struct array.c -0 read_struct_array.exe 
Iread_struct_array.exe 

Zhang 46 75.566666 

Li 24 65.199997 


内 存 对 齐 
为 了 内 存 寻 址 方便 ，C 语 言 的 结构 类 型 会 自动 添加 一 些 填充 用 的 字 节 ， 这 叫做 内 存 对 齐 。 
例如 上 面 C 语 言 中 定义 的 结构 的 name 字 段 虽 然 是 30 个 字 节 长 ,但 是 由 于 内 存 对 齐 问 题 ,在 name 
和 age 中 间 会 填补 两 个 字 节 。 因 此 ， 如 果 数组 中 所 配置 的 内 存 大 小 不 符合 C 语 言 的 对 齐 规范 ， 
将 会 出 现 数据 错位 。 为 了 解决 这 个 问题 ， 在 创建 dtype 对 象 时 ， 可 以 传递 参数 align=True， 这 样 
结构 数组 的 内 存 对 齐 就 和 C 语言 的 结构 类 型 一 致 了 。 在 前 面 的 例子 中 ， 由 于 创建 persontype 时 
指定 align 参数 为 True， 因 此 它 占 用 40 个 字 节 


结构 类 型 中 可 以 包括 其 他 的 结构 类 型 ,下面 的 语句 创建 一 个 有 一 个 字段 fl 的 结构 , fl 的 值 
是 另 一 个 结构 ， 它 有 字段 亿 ， 类 型 为 16 位 整数 : 

np.dtype([('f1', [('f2', np.int16)])]) 

dtype([('f1', [('f2', '<i2')])]) 

当 某 个 字段 类 型 为 数组 时 ， 用 元 组 的 第 三 个 元 素 表示 其 形状 。 在 下 面 的 结构 体 中 ,fl 字段 
是 一 个 形状 为 (2,3) 的 双 精 度 浮 点 数组 : 


np.dtype([('fe', "i4'), ('f1', 'f8', (2, 3))]) 
dtype([('fe', '<i4'), ('f1', '<f8', (2, 3))]) 


用 下 面 的 字典 参数 也 可 以 定义 结构 类 型 , 字典 的 键 为 结构 的 字段 名 , 值 为 字 自 的 类 型 描述 。 
但 是 由 于 字典 的 键 是 没有 顺序 的 ， 因 此 字段 的 顺序 需要 在 类 型 描述 中 给 出 。 类 型 描述 是 一 个 元 
组 , 它 的 第 二 个 值 给 出 字段 的 以 字 节 为 单位 的 偏 移 量 , 例如 下 例 中 的 age 字段 的 偏 移 量 为 25 个 


字 节 ; 


np.dtype({'surname':('S25' ,6)，age':(np.uint8,25)}) 
dtype([('surname', 'S25'), ('age'’, 'u1')]) 


2.1.7 ”内 存 结构 
下 面 让 我 们 看 看 数组 对 象 是 如 何在 内 存 中 存储 的 。 如 图 2-3 所 示 ， 数 组 的 描述 信息 保存 在 


一 个 数据 结构 中 ， 这 个 结构 引用 两 个 对 象 : 用 于 保存 数据 的 存储 区 域 和 用 于 描述 元 素 类 型 的 
dtype 对象 。 


ndarray 数 据 结构 
float32 描 述 数组 的 元 素 类 型 
dtype * float32 | 
dim count 2 
dimensions 3 3 
一 | 4 字 节 ”数据 存储 区 域 
strides | 12 | 4 
data * 站 日 日 日 中 DB 
12 字 节 


图 2-3 ndarray 数组 对 象 在 内 存 中 的 存储 方式 


数据 存储 区 域 保存 着 数组 中 所 有 元 素 的 二 进 制 数据 ，dtype 对 象 则 知道 如 何 将 元 素 的 二 进 
制 数据 转换 为 可 用 的 值 。 数 组 的 维 数 和 形状 等 信息 都 保存 在 ndarray 数组 对 象 的 数据 结构 中 。 图 
2-3 中 显示 的 是 下 面 的 数组 a 的 内 存 结构 : 


a = np.array([[8,1,2],[3,4,5],[6,7,8]]，dtype=np.float32) 


数组 对 象 使 用 strides 属性 保存 每 个 轴 上 相 邻 两 个 元 素 的 地 址 差 ， 即 当 某 个 轴 的 下 标 增加 1 
时 ， 数 据 存储 区 中 的 指针 所 增加 的 字 节 数 。 例 如 图 2-3 中 的 strides 为 (12,4)， 即 第 0 轴 的 下 标 增 
加 工时， 数据 的 地 址 增加 12 个 字 节 。 也 就 是 a[1,0] 的 地 址 比 a[0,0] 的 地 址 大 12， 正 好 是 3 个 单 
精度 浮 点 数 的 总 字 节 数 。 第 1 轴 的 下 标 增加 1 时， 数据 的 地 址 增加 4 个 字 节 ， 正 好 是 一 个 单 精 
度 浮 点 数 的 字 节 数 。 

如 果 strides 属性 中 的 数值 正好 和 对 应 轴 所 占据 的 字 节 数 相 同 ， 那 么 数据 在 内 存 中 是 连续 存 
储 的 。 通 过 切片 下 标 得 到 的 新 数组 是 原始 数组 的 视图 ， 即 它 和 原始 数组 共享 数据 存储 区 域 ， 但 
是 新 数组 的 strides 属性 会 发 生变 化 : 


| 
b b.strides 


[L021 (a) 
ca 


于 数组 b 和 数组 a 共享 数据 存储 区 ， 而 数组 b 中 的 第 0 轴 和 第 1 轴 都 是 从 a 中 隔 一 个 元 
素 取 一 个 ， 因 此 数组 b 的 strides 变 成 了 (24, 8)， 正 好 都 是 数组 a 的 两 倍 。 对 照 前 面 的 图 2-3 很 容 
易 看 出 数据 0 和 2 的 地 址 相差 8 个 字 节 ， 而 数据 0 和 6 的 地 址 相差 24 个 字 节 。 

元 素 在 数据 存储 区 中 的 排列 格式 有 两 种 : C 语言 格式 和 Fortran 语言 格式 。 在 C 语 言 中 , 多 
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维 数组 的 第 0 轴 是 最 上 位 的 , 即 第 0 轴 的 下 标 增加 1 时 ,元 素 的 地 址 增加 的 字 节 数 最 多 ; 而 Fortran 
语言 中 的 多 维 数组 的 第 0 轴 是 最 下 位 的 ， 即 第 0 轴 的 下 标 增加 1 时， 地 址 只 增加 一 个 元 素 的 字 


二 已 


节 数 。 在 NumPy 中 默认 以 C 语 言 


组 时 ， 设 置 order 参数 为 "F": 


c= np.array([[8,1,2],[3,4,5],[6,7,8]]，dtype=np.float32，order="F") 


c.strides 
(4，12) 


了 解 了 数组 的 内 存 结构 ， 就 可 以 解释 使 用 下 标 取得 数据 时 的 复制 和 引用 问题 


e 当下 标 使 用 整数 和 切片 时 ， 所 取得 的 数据 在 数据 存储 


式 存储 数据 ， 如 果 希 望 改 为 Fortran 格式 ， 只 需要 在 创建 数 


区 域 中 是 等 间隔 分 布 的 。 因 为 只 


需要 修改 图 2-3 所 示 的 数据 结构 中 的 dim count、dimensions、stride 等 属性 以 及 指向 数据 


存储 区 域 的 
存储 区 域 。 


。 当 使 用 整数 
是 等 间隔 的 ， 

数组 的 flags 属性 描述 了 数据 存储 区 域 的 一 些 属性 ， 直 接 查 看 flags 属性 将 输出 各 个 标志 的 

值 ， 也 可 以 单独 获得 其 中 的 某 个 标志 值 : 


print a.flags 


因此 无 法 和 原始 数组 共享 数据 ， 只 能 对 数据 进行 复制 。 


print "c_contiguous:", a.flags.c_contiguous 
C_CONTIGUOUS : 
F_CONTIGUOUS : 


True 
False 


OWNDATA : True 
WRITEABLE : True 
ALIGNED : True 


UPDATEIFCOPY 


: False 


c_contiguous: True 


下 面 是 几 个 比较 重要 的 标志 : 
e C_CONTIGUOUS: 数据 存储 区 域 是 否 是 C 语 言 格式 的 连续 区 域 。 
e F_CONTIGUOUS: 数据 存储 区 域 是 否 是 Fortran 语言 格式 的 连续 区 域 。 


OWNDATA: 数组 是 否 拥有 此 数据 存储 区 域 ， 当 一 个 数组 是 其 他 数组 的 视图 
拥有 数据 存储 区 域 。 


彰 针 data， 就 能 实现 整数 和 切片 下 标 , 所 以 新 数组 和 原始 数组 能 够 共享 数据 


这 列 、 整 数 数组 和 布尔 数组 时 ， 不 能 保证 所 取得 的 数据 在 数据 存储 区 域 中 


于 数组 a 是 通过 array0 直 接 创建 的 ， 因 此 它 的 数据 存储 区 域 是 C 语言 格式 的 连续 


区 域 ， 


并 且 它 拥有 数据 存储 区 域 。 下 面 我 们 看 看 数组 a 的 转 置 标志 ， 数 组 的 转 置 可 以 通过 划 


下 


属性 


获得 ， 转 置 数组 将 其 数据 存储 区 域 看 作 Fortran 语言 格式 的 连续 区 域 ， 并 且 它 不 拥有 数据 存储 


区 域 。 


a.T.flags 


S27 


C_CONTIGUOUS : False 
F_CONTIGUOUS : True 
OWNDATA : False 
WRITEABLE : True 
ALIGNED : True 
UPDATEIFCOPY : False 


下 面 查看 数组 b 的 标志 ， 它 不 拥有 数据 存储 区 域 ， 其 数据 也 不 是 连续 存储 的 。 通 过 视图 数 


组 的 base 属性 可 以 获得 保存 数据 的 原始 数组 : 


b.flags 

C_CONTIGUOUS : False 
F_CONTIGUOUS : False 
OWNDATA : False 
WRITEABLE : True 
ALIGNED : True 
UPDATEIFCOPY : False 

id(b.base) id(a) 


119627272 119627272 


我 们 还 可 以 通过 view0 方 法 从 同一 块 数据 区 创建 不 同 的 dtype 的 数组 对 象 ， 也 就 是 使 用 不 


同 的 数值 类 型 查看 同一 段 内 存 中 的 二 进 制 数据 : 


a = np.array([[8, 1], [2, 3], [4, 5]], dtype=np.float32) 


b = a.view(np.uint32) 
c = a.view(np.uint8) 


[[ 6，1665353216]，[ 


.00 0 0 O01 63] 7 


[0 
[1673741824，1677936128]， [ 6， 6， 8, 64, 8, 0, 64, 64], 
[ 8 


[1682136432，1684227584]] 


由 于 数组 a 的 元 素 类 型 是 单 精度 浮 点 数 ， 占 用 4 个 字 


， 6,，128， 64， 6， 98, 160, 64]] 


节 ， 通 过 aviewapuint32)， 我 们 创建 


了 一 个 新 的 数组 ， 它 和 数组 a 使 用 同一 段 数据 内 存 ， 但 是 它 将 每 4 个 字 节 的 数据 当 作 无 符号 32 


位 整数 处 理 。 而 aviewpauintg) 将 每 个 字 节 都 当 作 一 个 单字 节 的 无 符号 整数 ， 因 此 得 到 一 个 形 
状 为 3, 8) 的 数组 。 通 过 view( 方 法 获得 的 新 数组 与 原 数组 共享 内 存 ， 当 a[0, 0] 被 修改 时 ，b[0, 0] 


和 c[0, :4] 都 会 改变 : 


a[e, 8] = 3.14 
b[e, 8] c[e, :4] 


1678523331 [195, 245, 72, 64] 


请 举 峙 疡 岗 谊 -人 dunN 


53 


54 


请 六 册 痛 许 这- 人 dunN 


”Python 科学 计算 (第 2 版 ) 


下 面 我 们 看 一 个 使 用 view0 方 法 的 有 趣 的 例子 。 在 《雷神 之 锤 三 : 竞技 场 》 的 C 语 言 源 代 
码 中 有 这 样 一 个 神奇 的 计算 平方 根 倒数 的 函数 Q_rsqrt0。 代 码 中 使 用 牛顿 迭代 法 计算 平方 根 倒 
数 ， 这 并 没有 任何 神奇 之 处 ， 但 是 其 中 包含 了 一 个 神奇 的 数字 0x5f3759df， 并 将 单 精度 浮 点 数 
当 作 32 位 的 整数 进行 了 一 次 令 人 毫 无 头绪 的 运算 : 


。 ”http://zh.wikipedia.org/wiki/ 平 方 根 倒数 速算 法 
维基 百科 关于 《雷神 之 锤 》 中 使 用 0x5f3759df 计 算 平方 根 倒数 算法 的 解释 。 


float Q_rsqrt( float number ) 


i 
long i; 
feat Yay Ys 
const float threehalfs = 1.5F; 
x2 = number * @.5F; 
y = number; 
i =*( long * ) 8y; // 对 浮 点 数 的 那 恶 位 级 hack 
i = 6x5f3759df - ( i >> 1 ); // 这 到 底 是 怎么 回 事 ? 
y =*( float* ) 人 5 
y =y* (threehalfs -( x2 * y*y)); // 第 一 次 牛顿 迭代 
return y; 
} 


下 面 我 们 用 NumPy 实现 同样 的 计算 : 


number = np.linspace(98.1, 10, 1060) 

y = number.astype(np.float32) © 
x2=y*08.5 

i = y.view(np.int32) 所 

i[:] = 6x5f3759df - (i >> 1) © 
2 
np.max(np.abs(1 / np.sqrt(number) - y)) @ 
8.6656456146416597428 


人 @ 由 于 linspace0 创 建 的 数组 的 类 型 为 双 精 度 浮 点 数 , 因此 这 里 首先 通过 astype0 方 法 将 其 转 
换 成 单 精 度 浮 点 数 数组 y。@ 通 过 view0 方 法 创建 一 个 与 y 共 享 内 存 的 32 位 整数 数组 i。@ 对 整 
数 数组 i 进行 那 段 完全 摸 不 着 头脑 的 运算 , 并 且 将 结果 重新 写 入 数组 i 中 。 由 于 i 和 y 共 享 内 存 ， 

此 时 y 中 的 值 也 发 生 了 变化 。 注 意 这 里 的 赋值 不 能 使 用 i = 0x5f3759df -G >> D， 如 果 这 样 写 ， 

那么 数组 i 就 是 一 个 全 新 的 数组 了 。@ 进 行 一 次 牛顿 迭代 运算 ， 这 里 由 于 使 用 y=.… 的 写法 ， 因 
此 y 将 变 成 一 个 全 新 的 数组 ， 和 原来 的 i 不 再 共享 内 存 。 在 这 段 代码 中 有 很 多 数组 运算 ， 关 于 
这 方面 的 内 容 将 在 下 一 节 进 行 详细 说 明 。@ 最 后 输出 真实 值 和 近似 值 之 间 的 最 大 误差 。 图 24 


显示 了 绝对 误差 与 自 变量 的 关系 ， 当 number 很 小 时 绝对 误差 较 大 ， 但 此 时 的 函数 值 也 较 大 ， 


因此 相对 误差 的 变化 并 不 大 。 


0.006 


0.005 


0.004 


0.003 


0.002 上 | 


真实 值 与 近似 值 的 误差 


图 24 《雷神 之 锤 》 中 计算 平方 根 倒数 算法 的 绝对 误差 


除了 使 用 切片 从 同一 块 数据 区 创建 不 同 的 shape 和 strides 的 数组 对 象 之 外 ， 还 可 以 直接 设 
置 这 些 属性 ， 从 而 得 到 用 切片 实现 不 了 的 效果 ， 例 如 : 


from numpy.1ib.stride tricks import as_strided 


a = np.arange(6) 


b = as_strided(a, shape=(4, 3), strides=(4, 4)) 


[@, 1, 2, 3, 4, 5] [[e, 1, 2], 


[1, 2, 3], 
[2, 3, 4], 
[3, 4, 5]] 


这 个 例子 中 , 我 们 从 NumPy 的 辅助 模块 中 载 入 了 as_strided0 函 数 ， 并 使 用 它 从 一 个 长 度 为 


6 的 一 维 数组 a 创建 了 一 个 shape 为 (4, 3) 的 二 


的 strides 属性 ， 因 此 不 仅 数 组 


b 和 数组 a 寺 


的 。 例 如 下 面 修改 a2] 的 值 ，b 中 的 前 三 行 中 对 应 的 元 素 也 发 生 改变 : 


a[2] = 26 

b 

array([[ 6， 1，26]， 
[2003] 
Ee 37 AI 
[ 3, 4, 5]]) 


在 对 数据 进行 处 理 时 ， 可 


之 间 需 要 有 一 定 的 重合 部 分 。 这 时 可 以 使 / 


能 经 常 需要 


数据 进行 分 块 处 理 ， 而 有 


上 面 介绍 的 方法 对 数据 进行 带 习 


- 维 数组 b。 由 于 通过 strides 参数 直接 指定 了 数组 b 
数据 区 ， 而 且 b 中 的 前 后 两 行 有 两 个 元 素 是 重合 


为 了 保持 平滑 ， 每 块 数据 


E 登 的 分 块 。 需 要 注 


请 准 峙 痛 岂 这- 人 dunN 


55 


涝 普 峙 疡 岗 基 -人 dunN 


56 | 


Python 科学 计算 (第 2 版 ) 


意 的 是 ， 使 用 as_strided0 时 Numpy 不 会 进行 内 存 越界 检查 ， 因 此 shape 和 strides 设置 不 当 可 能 
会 发 生意 想不到 的 错误 。 


2.2 ufunc 函数 


会 与 本 节 内 容 对 应 的 Notebook 为 : 02-numpy/numpy-200-ufunc.ipynb。 
ufunc 是 universal function 的 缩写 ， 它 是 一 种 能 对 数组 的 每 个 元 素 进行 运算 的 函数 。NumPy 


例子 : 
x = np.linspace(@, 2*np.pi, 10) 
y = np.sin(x) 
¥ 
array([ 8.066000000e+00,， ”6.42787616e-61， “9.84867753e-61， 
8.66625464e-61， 3.42626143e-61， -3.42626143e-61， 
-8.66625464e-61， -9.84867753e-61， -6.42787616e-61， 
-2.44929366e-16]) 


先 用 linspace0 产 生 一 个 从 0 到 2 的 等 差 数组 , 然后 将 其 传递 给 np.sin0 函 数 计算 每 个 元 素 的 
正弦 值 。 由 于 npsin0 是 一 个 ufunc 函数 ， 因 此 在 其 内 部 对 数组 x 的 每 个 元 素 进行 循环 ， 分 别 计 
算 它们 的 正弦 值 ， 并 返回 一 个 保存 各 个 计算 结果 的 数组 。 运 算 之 后 数组 x 中 的 值 并 没有 改变 ， 
而 是 新 创建 了 一 个 数组 来 保存 结果 。 也 可 以 通过 out 参数 指定 保存 计算 结果 的 数组 。 因 此 如 果 
希望 直接 在 数组 x 中 保存 结果 ， 可 以 将 它 传递 给 out 参数 : 

t = np.sin(x, out=x) 

Cds 

True 

ufunc 函数 的 返回 值 仍然 是 计算 的 结果 ， 只 不 过 它 就 是 数组 x。 下 面 比较 np.sin0 和 Python 
标准 库 的 mathsin0 的 计算 速度 : 


import math 
x= [i * 8.601 for i in xrange(1666666)] 


def sin math(x): 


for i, t in enumerate(x): 


x[i] = math.sin(t) 


def sin_numpy(x) : 
np.sin(x, x) 


def sin numpy_loop(x): 
for i, t in enumerate(x): 
x[i] = np.sin(t) 


廊下- 水 世人 
%time sin_math(x) 


xa = np.array(x) 
%time sin_numpy(xa) 


xl = x[:] 

%time sin numpy_loop(x) 
Wall time: 362 ms 

Wall time: 36 ms 

Wall time: 1.28 s 


可 以 看 出 ，np.sin0 比 mathsin0 快 10 倍 多 ， 这 得 痊 于 np.sin0 在 C 语 言 级 别 的 循环 计算 。 


列表 推导 式 比 循环 更 快 
事实 上 ， 标 准 Python 中 有 比 for 循环 更 快 的 方案 : 使 用 列表 推导 式 x =[math.sin(t) fortinx]。 
但 是 列表 推导 式 将 产生 一 个 新 的 列表 ， 而 不 是 直接 修改 原 列 表 中 的 元 素 。 


np.sin0 同 样 也 支持 计算 单个 数值 的 正弦 值 。 不 过 值得 注意 的 是 ， 对 单个 数值 的 计算 ， 
math.sin0 则 比 np.sin0 快 很 多 。 在 Python 级 别 进行 循环 时 ,np.sin0 的 计算 速度 只 有 math.sin0 的 16。 
这 是 因为 : npsin0 为 了 同时 支持 数组 和 单个 数值 的 计算 ， 其 C 语 言 的 内 部 实现 要 比 math sin0 复 杂 
很 多 。 此 外 ， 对 于 单个 数值 的 计算 ，np.sin0 的 返回 值 类 型 和 math.sin0 的 不 同 ，math.sin0 返 回 的 
是 Python 的 标准 float 类 型 ， 而 np.sin0 返 回 float64 类 型 : 


type(math.sin(8.5)) type(np.sin(8.5)) 


float numpy .float64 


通过 下 标 运算 获取 的 数组 元 素 的 类 型 为 NumPy 中 定义 的 类 型 ， 将 其 转换 为 Python 的 标准 
类 型 还 需要 花费 额外 的 时 间 。 为 了 解决 这 个 问题 ， 数 组 提供 了 item0 方 法 ， 它 用 来 获取 数组 中 
的 单个 元 素 ， 并 且 直 接 返回 标准 的 Python 数值 类 型 ; 
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a = np.arange(6.6).reshape(2，3) 
print a.item(1，2)，type(a.item(1，2))，type(a[1，2]) 
5.6 <type 'float'><type “numpy.float64 "> 


通过 上 面 的 例子 我 们 了 解 了 如 何 最 有 效率 地 使 用 math 模块 和 Numpy 中 的 数学 函数 。 由 于 
它们 各 有 优 缺 点 ， 因 此 在 导入 时 不 建议 使 用 import * 全 部 载 入 , 而 是 应 该 使 用 import numpy as np 
载 入 ， 这 样 可 以 根据 需要 选择 合适 的 函数 。 


2.2.1 四 则 运算 
NumpPy 提供 了 许多 ufunc 函数 ， 例 如 计算 两 个 数组 之 和 的 add0 函 数 : 


a = np.arange(6，4) 

b = np.arange(1，5) 

np.add(a，b) 

array([1, 3, 5, 7]) 

add0 返 回 一 个 数组 ， 它 的 每 个 元 素 都 是 两 个 参数 数组 的 对 应 元 素 之 和 。 如 果 没 有 指定 out 
参数 ， 那 么 它 将 创建 一 个 新 的 数组 来 保存 计算 结果 。 如 果 指定 了 第 三 个 参数 out， 则 不 产生 新 
的 数组 ， 而 直接 将 结果 保存 进 指定 的 数组 。 

np.add(a, b, a) 

a 

rragyffT 3 Ss 3 


NumPy 为 数组 定义 了 各 种 数学 运算 操作 符 , 因此 计算 两 个 数组 相 加 可 以 简单 地 写 为 a+b， 
而 np.add(a,b, 3) 则 可 以 用 a+=b 来 表示 。 表 2-1 列 出 了 数组 的 运算 符 以 及 与 之 对 应 的 ufunc 函数 ， 
注意 除 号 的 意义 根据 是 否 激 活 _future_.division 有 所 不 同 


表 2-1 数组 的 运算 符 以 及 对 应 的 ufunc 函数 


表达 式 对 应 的 ufunc 函数 
y=x1+x2 add(x1,x2[.y) 
y=x1—x2 subtract(x1, x2[,y) 
y=x1 *x2 multiply(x1, x2[, y) 
y=x1/x2 divide(x1, x2 [,y), 如 果 两 个 数组 的 元 素 为 整数 ， 那 么 用 整数 除法 
y=x1/x2 true_divide(x1, x2[, yD, 总 是 返回 精确 的 商 
y=x1 /x2 floor_divide(x1, x2 [,y]), 总 是 对 返回 值 取 整 
y=x negative(x Ly]) 
y=x1**x2 power(x1, x2[,y) 


y=x1 %x2 remainder(x1, x2[, y]), mod(x1, x2.[.y) 


数组 对 象 支持 操作 符 ， 极 大 地 简化 了 算式 的 编写 ， 不 过 要 注意 如 果 算 式 很 复杂 ， 并 且 要 运 
算 的 数组 很 大 ， 将 会 因为 产生 大 量 的 中 间 结 果 而 降低 程序 的 运算 速度 。 例 如 ， 假 设 对 a、b、c 
个 数组 采用 算式 x=a*b+c 加 以 计算 ， 那 么 它 相当 于 : 


长 二 :区 光 村 
x=t+c 
delt 


也 就 是 说 ， 需 要 产生 一 个 临时 数组 t 来 保存 乘法 的 运算 结果 ， 然 后 再 产生 最 后 的 结果 数组 
x。 可 以 将 算式 分 解 为 下 面 的 两 行 语句 ， 以 减少 一 次 内 存 分 配 : 


x= a*b 
x+=C 


2.2.2 ”比较 运算 和 布尔 运算 


使 用 一 、> 等 比较 运算 符 对 两 个 数组 进行 比较 ， 将 返回 一 个 布尔 数组 ， 它 的 每 个 元 素 值 都 
是 两 个 数组 对 应 元 素 的 比较 结果 。 例 如 : 


np.array([1, 2, 3]) < np.array([3, 2, 1]) 
array([ True, False, False], dtype=bool) 


每 个 比较 运算 符 也 与 一 个 ufunc 函数 对 应 ， 表 2-2 是 比较 运算 符 与 ufunc 函数 的 对 照 表 。 
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表 2-2 比较 运算 符 与 相应 的 ufunc 函数 


对 应 的 ufunc 函数 


less(x1, x2, [, y) 


y=xl <=x*2 less_equal(x1, x2, [, y]) 
y=x] >x2 greater(x1, x2, [, y]) 


ater_equal(x1, x2, [, y]) 


由 于 Python 中 的 布尔 运算 使 用 and、or 和 not 等 关键 字 ， 它 们 无 法 被 重 载 ， 因 此 数组 的 布 
尔 运算 只 能 通过 相应 的 ufunc 函数 进行 。 这些 函数 名 都 以 logical_ 开头 , 在 IPython 中 使 用 自动 补 
全 可 以 很 容易 地 找到 它们 : 


>>> np.logical # 按 Tab 键 进行 自动 补 全 
np.logical and np.logical not np.logical or np.logical xor 


下 面 是 一 个 使 用 logical_or0 进 行 “或 运算 ”的 例子 : 
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a = np.arange(5) 

b = np.arange(4，-1，-1) 

print a == 

print a > b 

print np.logical or(a == b, a > b) # 和 a>=b 相同 
[False False True False False] 

[False False False True True] 

[False False True True True] 


对 两 个 布尔 数组 使 用 and、or 和 not 等 进行 布尔 运算 ， 将 抛 出 ValueErmor 异常 。 因 为 布尔 数 
组 中 有 Tme 也 有 False， 所 以 NumPy 无 法 确定 用 户 的 运算 目的 : 


a==banda>b 


ValueError Traceback (most recent call last) 
<ipython-input-13-99b8118687f6> in <module>() 
---->1a==banda>b 


ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() 
or a.all() 


错误 信息 告诉 我 们 可 以 使 用 数组 的 any0 或 al0 方 法 ,在 NumPy 中 同时 也 定义 了 any0 和 all0 
函数 ， 它 们 的 用 法 和 Python 内 置 的 any0 和 all0 类 似 。 只 要 数组 中 有 一 个 元 素 值 为 True，any0 
就 返回 Trme; 而 只 有 当 数 组 的 全 部 元 素 都 为 Tme 时 ，all0 才 返回 Tme。 


np.any(a == b) np.any(a == b) and np.any(a > b) 


以 bitwise_ 开头 的 函数 是 位 运算 函数 , 包括 bitwise_and、bitwise_not、 bitwise_or 和 bitwise_xor 
等 。 也 可 以 使 用 &、~、! 和 ^ 等 操作 符 进行 计算 。 

对 于 布尔 数组 来 说 ， 位 运算 和 布尔 运算 的 结果 相同 。 但 在 使 用 时 要 注意 ， 位 运算 符 的 优先 
级 比比 较 运算 符 高 ， 因 此 需要 使 用 括号 提高 比较 运算 符 的 运算 优先 级 。 例 如 : 


(a== b) | (a > b) 
array([False, False, True, True, True], dtype=bool) 


整数 数组 的 位 运算 和 CC 语言 的 位 运算 相同 , 在 使 用 时 要 注意 元 素 类 型 的 符号 , 例如 下 面 的 
arange0 所 创建 的 数组 的 元 素 类 型 为 32 位 符号 整数 , 因此 对 正 数 按 位 取 反 将 得 到 负数 。 以 整数 0 
为 例 ， 按 位 取 反 的 结果 是 0xKFFFFFFFF， 在 32 位 符号 整数 中 ， 这 个 值 表示 -1。 


~ np.arange(5) 
array([-1, -2, -3, -4, -5]) 


而 如 果 对 8 位 无 符号 整数 数组 进行 按 位 取 反 运算 : 


~ np.arange(5，dtype=np.uint8) 
array([255，254，253，252，251]，dtype=uint8) 


同样 的 整数 0， 按 位 取 反 的 结果 是 0xKFF， 当 它 是 8 位 无 符号 整数 时 ， 它 的 值 是 255。 
2.2.3 自 定义 ufunc 函数 

通过 NumPy 提供 的 标准 ufunc 函数 ,可 以 组 合 出 复杂 的 表达 式 , 在 C 语 言 级 别 对 数组 的 每 
个 元 素 进行 计算 .但 有 时 这 种 表达 式 不 易 编写 , 而 对 每 个 元 素 进行 计算 的 程序 却 很 容易 用 Python 
实现 ， 这 时 可 以 用 frompyfunc0 将 计算 单个 元 素 的 函数 转换 成 ufunc 函数 ， 这 样 就 可 以 方便 地 用 
所 产生 的 ufunc 函数 对 数组 进行 计算 了 。 

例如 ， 我 们 可 以 用 一 个 分 段 函 数 描述 三 角 波 ， 三 角 波 的 形状 如 图 2-5 所 示 ， 它 分 为 三 段 : 
上 升 段 、 下 降 段 和 平坦 段 。 
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图 2-5 三 角 波 可 以 用 分 段 函 数 进行 计算 


根据 图 2.5， 我 们 很 容易 写 出 计算 三 角 波 上 某 点 的 了 坐标 的 函数 。 显 然 riangle_waveO 只 能 
计算 单个 数值 ， 不 能 对 数组 直接 进行 处 理 。 


def triangle wave(x, c¢, c@, hc): 
x = x - int(x) # 三 角 波 的 周期 为 1， 因 此 只 取 x 坐标 的 小 数 部 分 进行 计算 
if x >= c:r=0.0 
elif x< ce:r=x/c*hc 
else: r = (c-x) / (c-c@) * hc 
returnr 


我 们 可 以 用 下 面 的 程序 ， 先 使 用 列表 推导 式 计算 出 一 个 列表 ， 然 后 用 array0 将 列表 转换 为 
数组 。 这 种 做 法 每 次 都 需要 使 用 列表 推导 式 语法 调用 函数 ， 这 对 于 多 维 数组 很 麻烦 。 


x = np.linspace(6，2，1666) 
y1 = np.array([triangle_wave(t，6.6，6.4，1.6) for t in x]) 


通过 frompyfunc0 可 以 将 计算 单个 值 的 函数 转换 为 能 对 数组 的 每 个 元 素 进行 计算 的 ufunc 函 
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数 。frompyfunc0 的 调用 格式 为 : 


frompyfunc(func, nin, nout) 


其 中 : func 是 计算 单个 元 素 的 函数 ，nin 是 func 的 输入 参数 的 个 数 ，nout 是 func 的 返回 值 
的 个 数 。 下 面 的 程序 使 用 frompyfunc0 将 triangle_wave0 转 换 为 ufunc 函数 对 象 triangle_ufuncl: 


triangle_ufunc1 = np.frompyfunc(triangle_wave，4，1) 
y2 = triangle_ufunc1(x，6.6，68.4，1.6) 


值得 注意 的 是 ,triangle_ufunc10 所 返回 的 数组 的 元 素 类 型 是 objecb, 因此 还 需要 调用 数组 的 
astype0 方 法 ， 以 将 其 转换 为 双 精 度 浮 点 数组 : 


y2.dtype  y2.astype(np.float).dtype 


dtype('0') dtype('float64') 

使 用 vectorize0 也 可 以 实现 和 frompyfunc0 类 似 的 功能 ， 但 它 可 以 通过 otypes 参数 指定 返回 
的 数组 的 元 素 类 型 。otypes 参数 可 以 是 一 个 表示 元 素 类 型 的 字符 串 ， 也 可 以 是 一 个 类 型 列表 ， 
使 用 列表 可 以 描述 多 个 返回 数组 的 元 素 类 型 。 下 面 的 程序 使 用 vectorize0 计 算 三 角 波 : 


triangle_ufunc2 = np.vectorize(triangle_wave，otypes=[np.float]) 
y3 = triangle_ufunc2(x, 0.6, 0.4, 1.0) 
最 后 我 们 验证 一 下 结果 : 


np.all(y1 == y2) np.all(y2 == y3) 


当 使 用 ufunc 函数 对 两 个 数组 进行 计算 时 ,ufunc 函数 会 对 这 两 个 数组 的 对 应 元 素 进行 计算 ， 
因此 它 要 求 这 两 个 数组 的 形状 相同 。 如 果 形 状 不 同 ， 会 进行 如 下 广播 (broadcasting) 处 理 : 
]) 让 所 有 输入 数组 都 向 其 中 维 数 最 多 的 数组 看 齐 , shape 属性 中 不 足 的 部 分 都 通过 在 前 面 加 


1 补 齐 。 
2) 输 出 数组 的 shape 属性 是 输入 数组 的 shape 属性 的 各 个 轴 上 的 最 大 值 。 


[a 


3) 如 果 输 入 数组 的 某 个 轴 的 长 度 为 1 或 与 输出 数组 的 对 应 轴 的 长 度 相同 ， 这 个 数组 能 

来 计算 ， 否 则 出 错 。 
当当 输入 数组 的 某 个 轴 的 长 度 为 1 时 ， 沿 着 此 轴 运 算 时 都 用 此 轴 上 的 第 一 组 值 。 
上 述 4 条 规则 理解 起 来 可 能 比较 费劲 ， 下 面 让 我 们 看 一 个 实际 的 例子 。 
先 创建 一 个 二 维 数组 a， 其 形状 为 (6,D): 


a = np.arange(86，66，16).reshape(-1，1) 


a a.shape 


再 创建 一 维 数组 b， 其 形状 为 (5,): 


b = np.arange(86，5) 
b b.shape 


[6 1, 2, 3, 4] (5,) 


计算 a 与 6 的 和 ， 得 到 一 个 加 法 表 ， 它 相当 于 计算 两 个 数组 中 所 有 元 素 对 的 和 ， 得 到 一 个 
形状 为 (6,5) 的 数组 : 


c=a+b 


由 于 a 和 b 的 维 数 不 同 ， 根 据 规则 1D)， 需 要 让 b 的 shape 属性 向 a 对 齐 ， 于 是 在 b 的 shape 
属性 前 加 1， 补 齐 为 (1.5)。 相 当 于 做 了 如 下 计算 : 


b.shape = 1，5 


[[6， 1, 2, 3, 4]] (1, 5) 


这 样 ， 加 法 运算 的 两 个 输入 数组 的 shape 属性 分 别 为 (6,D 和 (1,5), 根据 规则 2), 输出 数组 的 
各 个 轴 的 长 度 为 输入 数组 各 个 轴 的 长 度 的 最 大 值 ， 可 知 输出 数组 的 shape 属性 为 (6,5)。 

于 b 的 第 0 轴 的 长 度 为 1， 而 a 的 第 0 轴 的 长 度 为 6， 为 了 让 它们 在 第 0 轴 上 能 够 相 加 ， 
需要 将 b 的 第 0 轴 的 长 度 扩 展 为 6， 这 相当 于 : 
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b = b.repeat(6，axis=6) 


b b.shape 

[[6，1，2，3，4]， (6, 5) 
[@, 1, 2, 3, 4], 
[@, 1, 2, 3, 4], 
[@, 1, 2, 3, 4], 
[8, 1, 2, 3, 4], 
[@, 1, 2, 3, 4]] 


这 里 的 repeat0 方 法 沿 着 axis 参数 指定 的 轴 复 制 数 组 中 各 个 元 素 的 值 。 由 于 a 的 第 1 轴 的 长 
度 为 1， 而 b 的 第 1 轴 的 长 度 为 5， 为 了 让 它们 在 第 1 轴 上 能 够 相 加 ， 需 要 将 a 的 第 1 轴 的 长 度 
扩展 为 5， 这 相当 于 : 


a = a.repeat(5, axis=1) 


[os 0 0 O01 (05) 
[10, 10, 10, 10, 10], 
[286，26，26，26，26]， 
[386，36，36，36，36]， 
[46，46，46，46，46]， 
[5@6，56，56，56，56]] 


经 过 上 述 处 理 之 后 , a 和 b 就 可 以 按 对 应 元 素 进行 相 加 运算 了 。 当然 , 在 执行 a+b 运 算 时 ， 
Numpy 内 部 并 不 会 真正 将 长 度 为 1 的 轴 用 repeat0 进 行 扩展 ,这 样 太 浪费 内 存 空间 了 。 由 于 这 种 
广播 计算 很 常用 ， 因 此 NumPy 提供 了 ogrid 对 象 ， 用 于 创建 广播 运算 用 的 数组 。 

x，y = np.ogrid[:5，:5] 


[[e], [[e, 1, 2, 3, 4]] 


此 外 ，NumPy 还 提供 了 mgrid 对 象 ， 它 的 用 法 和 ogrid 对 象 类 似 ， 但 是 它 所 返回 的 是 进行 
广播 之 后 的 数组 : 


x, y = np.mgrid[:5，:5] 


[[6，6，6，6，6]， [[6，1，2， 
[di [012 
[本 > 本 2 本 2 下 2] 同 [6 本 2 
EEE 
[4, 4, 4, 4, 4]] | Pi 


3， 
3， 
3， 
3， 
3， 


4]， 
4]， 
4]， 
4]， 
4]] 


ogrid 是 一 个 很 有 趣 的 对 象 , 它 像 多 维 数组 一 样 ， 


来 广播 计算 的 数组 。 其 切片 下 标 有 两 种 形式 ; 


切片 元 组 作为 下 标 , 返回 的 是 一 组 可 以 


e 开始 值 :结束 值 : 步 长 ， 和 np.arange( 开 始 值 ,结束 值 , 步 长 ) 类 似 。 
e 开始 值 :结束 值 :长 度 j， 当 第 三 个 参数 为 虚数 时 ， 它 表示 所 返回 的 数组 的 长 度 ， 和 
np.linspace( 开 始 值 ,结束 值 ,长 度 ) 类 似 。 


x, y = np.ogrid[:1:4j, :1:3j] 


[[ 8. sl:5 
[ 6.33333333]， 
[ 6.66666667]， 


[1. ]] 


1. ]] 


利用 ogrid 的 返回 值 ， 我 们 很 容易 计算 二 元 函数 在 等 间距 网 格 上 的 值 。 下 面 是 绘制 三 维 曲 


面 f(x,y) = xe* -的 程序 : 


x, y = np.ogrid[-2:2:26j，-2:2:26j] 
z= XxX* np.exp( - Xx**2 - y**2) 


图 2-6 为 使 用 ogrid 计算 的 三 维 曲面 。 


图 2-6 使 用 ogrid 计算 二 元 函数 的 曲面 
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为 了 充分 利用 ufunc 函数 的 广播 功能 ， 我 们 经 常 需要 调整 数组 的 形状 ， 因 此 数组 支持 特殊 
的 下 标 对 象 None, 它 表示 在 None 对 应 的 位 置 创 建 一 个 长 度 为 1 的 新 轴 , 例如 对 于 一 维 数组 a， 
a[None, :] 和 areshape(1, -等 效 ， 而 a[:, None] 和 areshape(-1, ]) 等 效 : 


a = np.arange(4) 


a[None, :] a[:，None] 


[[e, 1, 2, 3]][[e], 
[1], 
[2]， 
[3]] 


下 面 的 例子 利用 None 作为 下 标 ， 实 现 广播 运算 : 


x = np.array([6，1，4，16]) 
y = np.array([2, 3, 8]) 
x[None, :] + y[:, None] 
Brayell e227 on "63 21y 
L373 
B79. 12721231D 


还 可 以 使 用 ix_0 将 两 个 一 维 数组 转换 成 可 广播 的 二 维 数组 : 


By, BX = Np.ix_(y, x) 
gx gy gx + gy 


[[@, 1, 4, 16]] [[2], [[ 2, 3, 6, 12], 
[3], [ 3, 4, 7, 13], 
[8]] [ 8, 9, 12, 18]] 


在 上 面 的 例子 中 ， 通 过 ix_0 将 数组 x 和 y 转 换 成 能 进行 广播 运算 的 二 维 数组 。 注 意 数组 y 


对 应 广播 运算 结果 中 的 第 0 轴 ， 而 数组 x 与 第 1 轴 对 应 。ix_0 的 参数 可 以 是 N 个 一 维 数组 ， 它 
将 这 些 数组 转换 成 N 维 空间 中 可 广播 的 N 维 数组 。 
2.2.5 ”ufunc 的 方法 

ufunc 函数 对 象 本 身 还 有 一 些 方法 函数 ， 这 些 方法 只 对 两 个 输入 、 一 个 输出 的 ufunc 函数 有 
效 ， 其 他 的 ufunc 对 象 调用 这 些 方法 时 会 抛 出 ValueEror 异常 。 
reduce0 方 法 和 Python 的 reduce0 函 数 类 似 ， 它 沿 着 axis 参数 指定 的 轴 对 数组 进行 操作 ， 相 
当 于 将 <op> 运 算 符 插入 到 沿 axis 轴 的 所 有 元 素 之 间 : <op>.reduce(array, axis=0, dtype=None)。 
例如 : 


rl = np.add.reduce([1, 2, 3]) #1+2+3 
r2 = np.add.reduce([[1, 2, 3], [4, 5, 6]], axis=1) # (1+2+3),(4+5+6) 


rl Li 


accumulate0 方 法 和 reduce0 类 似 ， 只 是 它 返回 的 数组 和 输入 数组 的 形状 相同 ， 保 存 所 有 的 
中 间 计 算 结果 : 
al = np.add.accumulate([1, 2, 3]) 
a2 = np.add.accumulate([[1, 2, 3], [4, 5, 6]], axis=1) 
al a2 


el | ee Xa 
[ 4, 9, 15]] 
reduceat() 方 法 计算 多 组 reduce0 的 结果 ， 通 过 indices 参数 指定 一 系列 的 起 始 和 终止 位 置 。 
它 的 计算 有 些 特别 ， 让 我 们 通过 例子 详细 解释 一 下 : 
a = np.array([1, 2, 3, 4]) 
result = np.add.reduceat(a, indices=[8, 1, 6, 2, 86, 3, 8]) 
result 
array( 1 2 3 3 64, 10]) 
对 于 indices 参数 中 的 每 个 元 素 都 会 计算 出 一 个 值 , 因此 最 终 的 计算 结果 和 indices 参数 的 长 
度 相 同 。 结 果 数 组 result 中 除 最 后 一 个 元 素 之 外 ， 都 按照 如 下 计算 得 出 : 
if indices[i] < indices[i+1]: 
result[i] = <op>.reduce(a[indices[i]:indices[i+1]]) 
else: 
result[i] = a[indices[i]] 


而 最 后 一 个 元 素 如 下 计算 : 


<op>.reduce(a[indices[-1]:]) 


因此 在 上 面 的 例子 中 ， 数 组 result 的 每 个 元 素 按照 如 下 计算 得 出 : 
1:a[le] ->1 
2:a[l1i] ->2 
3 : a[l8] + a[l1l] -> 1+2 
3 : a[l2] -> 3 
6:a[le] +a[ll] +a[l2] -> 1+2+3=6 
4 :a[l3] -> 4 
16: a[8] + a[1] + a[2] + a[4] -> 1+2+3+4=10 
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可 以 看 出 result[::2] 和 a 相等， 而 result[1::2] 和 np.add.accumulate(a) 相 等 。 
ufunc 函数 对 象 的 outer0 方 法 等 同 于 如 下 程序 : 
a.shape += (1,)*b.ndim 


<op>(a,b) 
a = a.squeeze() 


其 中 squeeze0 方 法 剔除 数组 a 中 长 度 为 1 的 轴 。 让 我 们 看 一 个 例子 : 


np.multiply.outer([1，2，3，4，5]，[2，3，4]) 
array([[ 2， 3， 4]， 

[ 4, 6, 8], 

Lo 9 2 

Ex 

[16，15，26]]) 


可 以 看 出 通过 outer0 计 算 的 结果 是 如 下 乘法 表 : 


3| 6 9 12 
4| 8 12 16 
5|10 15 26 


如 果 将 这 两 个 数组 按照 等 同 程序 一 步 一 步 地 进行 计算 , 就 会 发 现 乘法 表 最 终 是 通过 广播 的 
方式 计算 出 来 的 。 


2.3 多 维 数组 的 下 标 存 取 


A 与 本 节 内 容 对 应 的 Notebook 为 : 02-numpy/numpy-300-mulitindex.ipynb。 


在 前 面 的 介绍 中 , 我 们 通过 一 些 实例 介绍 了 如 何 对 多 维 数组 进行 下 标 访问 。 实际 上 , NumPy 
提供 的 下 标 功能 十 分 强大 ， 在 读者 掌握 了 “广播 ”相关 的 知识 之 后 ， 让 我 们 再 回 过 头 来 系统 地 
学 习 数 组 的 下 标 规 则 。 
2.3.1 下 标 对 象 

首先 ,多维 数组 的 下 标 应 该 是 一 个 长 度 和 数组 的 维 数 相同 的 元 组 。 如 果 下 标 元 组 的 长 度 比 
数组 的 维 数 大 ， 就 会 出 错 ， 如 果 小 ， 就 会 在 下 标 元 组 的 后 面 补 “:”， 使 得 它 的 长 度 与 数组 维 数 
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相同 。 


如 果 下 标 对 象 不 是 元 组 ， 则 NumPy 会 首先 把 它 转 
为 了 避免 出 现 问题 ， 请 “ 


望 的 不 一 致 ， 因 


维 数组 ， 下 面 使 


显 


| 


a = np.arange(3 * 4 * 5).reshape(3, 4, 5) 


lidx = [[e], [1]] 
aidx = np.array(lidx) 
a[lidx] 


a[aidx] 


换 为 元 组 。 这 种 转换 可 能 会 和 


户 所 希 


”地 使 用 元 组 作为 下 标 。 例 如 数组 a 是 一 个 三 


个 二 维 列表 lidx 和 二 维 数组 aidx 作为 下 标 ， 得 到 的 结果 就 不 一 样 。 


[[5, 6, 7, 8, 9]] [[[[ 9， 
[ 5， 
[19， 


[15， 


[[[29， 
[25， 
[36， 
[35， 


这 是 因为 NumPy 将 列表 lidx 转换 成 了 ([0],[1])， 


a[tuple(lidx)] 


1, 
6， 
和 
16, 


2 
26, 
31, 
36, 


a[aidx, :,:] 


了》 


]]]] 


[[5, 6, 7, 8, 9]] [[[[ 9， 
[ 5， 
[10, 


[15, 


[[[20, 
[25, 
[368， 
[35， 


经 过 各 种 转换 和 添加 “:” 之 后 得 到 了 一 个 标准 
型 : 切片 、 整 数 、 整 数 数组 和 布尔 数组 。 如 果 元 素 不 


成 整数 数组 。 


如 果 下 标 元 组 的 所 有 元 素 都 是 切片 和 整数 , 那么 


21， 


图 ， 即 它 和 原始 数组 共享 数据 存储 空间 。 


了 


了 


]]]] 


而 将 数组 aidx 转换 成 了 Gaidx, :, :) 


的 下 标 元 组 。 它 的 各 个 元 素 有 如 下 儿 种 类 


是 这 些 类 型 ， 如 列表 或 元 组 ， 就 将 其 转换 


j 它 作为 下 标 得 到 的 是 原始 数组 的 一 个 视 
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2.3.2 ”整数 数组 作为 下 标 


下 面 看 看 下 标 元 组 中 的 元 素 由 切片 和 整数 数组 构成 的 情况 。 假 设 整 数 数组 有 Nt 个 ， 而 切片 
有 Ns 个 。Nt + Ns 为 数组 的 维 数 D。 
首先 ， 这 Ni 个 整数 数组 必须 满足 广播 条 件 ， 假 设 它们 进行 广播 之 后 的 维 数 为 M， 形 状 为 


如 果 N, 为 0， 即 没有 切片 元 素 时 ， 则 下 标 所 得 到 的 结果 数组 result 的 形状 和 整数 数组 广播 
之 后 的 形状 相同 。 它 的 每 个 元 素 值 按照 下 面 的 公式 获得 : 

result[io,i,,..., im-1] = X[indofio, i,,..., 1 indN,_i[io iv， iM_i]] 

其 中 ，indo 到 indN,_; 为 进行 广播 之 后 的 整数 数组 。 让 我 们 看 一 个 例子 ， 从 而 加 深 对 此 公 
式 的 理解 : 


若 只 需要 沿 着 指定 轴 通过 整数 数组 获取 元 素 ， 可 以 使 用 numpytake0 函 数 ， 其 运算 速度 
评比 整数 数组 的 下 标 运 算 略 快 ， 并 且 支 持 下 标 越界 处 理 。 


ie = np.array([[1, 2, 1], [8, 1, 86]]) 
i1 = np.array([[[8]], [[1]]]) 
i2 = np.array([[[2, 3, 2]]]) 
b = a[ie, i1, i2] 
b 
array([[[22, 43, 22], 
Ps 


[[27, 48, 27], 
[ 7, 28, 7]]]) 
首先 ，i0、 让 、 认 三 个 整数 数组 的 shape 属性 分 别 为 2,3)、(2,1,1DD、(1,1,3)。 根 据 广播 规则 ， 
先 在 长 度 不 足 3 的 shape 属性 前 面 补 1， 使 得 它们 的 维 数 相同 ， 广 播 之 后 的 shape 属性 为 各 个 轴 
的 最 大 值 : 


即 三 个 整数 数组 广播 之 后 的 shape 属性 为 (2,2,3)， 这 也 就 是 下 标 运 算 所 得 到 的 结果 数组 的 
维 数 : 

b.shape 

(2，2，3) 
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我 们 可 以 使 用 broadcast_arrays0 查 看 广播 之 后 的 数组 : 


inde, ind1, ind2 = np.broadcast_arrays(i9，i1，i2) 
inde ind1 ind2 


[[[1, 2, 1], [[[e, @, e], [[[2, 3, 2], 
[e, 1, 6]]，  [e, 9 6]]， [2, 3, 2]], 


[[1, 2, 1], [[1 1, 1],  [[2, 3, 2], 
[e, 1, 6]]] [1,1, 1]]] [2, 3, 2]]] 


对 于 b 中 的 任意 一 个 元 素 b[ijkJ]， 它 是 数组 a 中 经 过 ind0、indl 和 ind2 进行 下 标 转换 之 后 
的 值 : 


i, j, k=0,1,2 
print b[i, j, k], alinde[i, j, k], indi[i, j, k], ind2[i, j, k]] 


i le 
print b[i, j, k], afinde[i, j, k], indi[i, j, k], ind2[i, j, k]] 
A 

28 28 


下 面 考虑 N; 不 为 0 的 情况 。 当 存在 切片 下 标 时 ， 情 况 就 变 得 更 加 复杂 了 。 可 以 细 分 为 两 
种 情况 : 下 标 元 组 中 的 整数 数组 之 间 没 有 切片 ， 即 整数 数组 只 有 一 个 或 连续 的 多 个 整数 数组 。 
这 时 结果 数组 的 shape 属性 为 : 将 原始 数组 的 shape 属性 中 整数 数组 所 占据 的 部 分 替换 为 它们 广 
播 之 后 的 shape 属 性 ,例如 假设 原始 数组 a 的 shape 属 性 为 (3,4,5),i0 和 让 广播 之 后 的 形状 为 (2,2,3)， 
则 a[1:3;i0. 记 ] 的 形状 为 (2,2,2,3): 


c = a[1:3, i6, i1] 
c.shape 
(22 253) 


其 中 , c 的 shape 属性 中 的 第 一 个 2 是 切片 “1:3” 的 长 度 ， 后 面 的 (2,23) 则 是 i 和 二 广播 之 
后 的 数组 的 形状 : 


inde, ind1 = np.broadcast_arrays(i@, i1) 
inde. shape 
(2, 2, 3) 


en hs 
| 
print a[1:3，inde[i，j，k]，indl[i，j，k]] # 和 c[:,i,j,k] 的 值 相同 
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[21 41] 
[21 41] 

当下 标 元 组 中 的 整数 数组 不 连续 时 ， 结 果 数 组 的 shape 属性 为 整数 数组 广播 之 后 的 形状 后 
面 添加 上 切片 元 素 所 对 应 的 形状 。 例 如 a[i0,,il] 的 shape 属性 为 2,2,3,4)， 其 中 (2,2,3) 是 和 让 广 
播 之 后 的 形状 ， 而 4 是 数组 a 的 第 1 轴 的 长 度 : 


d= ar[io，:，il] 
d.shape 
(2，2，3，4) 


ee es 
d[i,j,k,:] a[inde[i,j,k],:,indl[i,j,k]] 


| i | 
2.3.3 一 个 复杂 的 例子 
F 面 让 我 们 用 所 学 的 下 标 存 取 的 知识 ， 解 决 在 NumPy 邮件 列表 中 提出 的 一 个 比较 经 典 的 
问题 。 


http://mail.scipy.org/pipermail/numpy-discussion/2008-July/035764.html 
NumpPy 邮件 列表 中 原文 的 链接 。 


我 们 对 问题 进行 一 些 简 化 ， 提 问 者 想 要 实现 的 下 标 运算 是 ， 有 一 个 形状 为 ,J,K) 的 三 维 数 
组 v 和 一 个 形状 为 4, DD 的 三 维 数组 idx，idx 的 每 个 值 都 是 0 到 K-L 的 整数 。 他 想 通 过 下 标 运算 
得 到 一 个 数组 r， 对 于 第 0 轴 和 第 1 轴 的 每 个 下 标 1 和 j 都 满足 下 面 的 条 件 : 

r[i,j,:] = v[i,j,idx[i,j]:idx[i,j]+L] 

如 图 2-7 所 示 ， 左 图 中 不 透明 的 方块 是 我 们 希望 获取 的 部 分 ， 通 过 下 标 运算 之 后 将 得 到 右 
侧 所 示 的 数组 。 


图 2-7 三 维 数组 下 标 运算 问题 的 示意 图 


首先 创建 一 个 方便 调试 的 数组 v, 它 在 第 2 轴 上 每 一 层 的 值 就 是 该 层 的 高 度 ,， 即 v[,: 的 所 
有 的 元 素 值 都 为 i。 然 后 随机 产生 数组 itx， 它 的 每 个 元 素 的 取 值 都 在 0 到 K-L 之 间 ; 


I, J, K, L=6,7,8,3 
ye Viennerid:r, *1, 75K] 
idx = np.random.randint(6，K - L, size=(I, J)) 


然后 用 数组 idx 创建 第 2 轴 的 下 标 数组 idx_k, 它 是 一 个 形状 为 (ID) 的 三 维 数组 。 它 的 第 2 
轴 上 的 每 一 层 的 值 都 等 于 idx 数组 加 上 层 的 高 度 ， 即 idx_k[:;,i] =idx[:;:] +i: 


idx k = idx[:, :, None] + np.arange(3) 
idx_k.shape 
(6, 7, 3) 


然后 分 别 创建 第 0 轴 和 第 1 轴 的 下 标 数组 ， 它 们 的 shape 分 别 为 ,1,D 和 (1,J,D): 


Lod dx apogndaT :I KK] 


使 用 idx_i,idx_j,idx_ k 对 数组 v 进 行 下 标 运算 即 可 得 到 结果 ;: 
r= v[idx_ i, idx j, idx_k] 
i,j = 2，3 # 验证 结果 ， 读 者 可 以 将 之 修改 为 使 用 循环 验证 所 有 的 元 素 


r[i,j,:] v[i,j,idx[i,j]:idx[i,j]+L] 


DO 
2.3.4 布尔 数组 作为 下 标 


当 使 用 布尔 数组 直接 作为 下 标 对 象 或 者 元 组 下 标 对 象 中 有 布尔 数组 时 ， 都 相当 于 用 
nonzero0 将 布尔 数组 转换 成 一 组 整数 数组 ， 然 后 使 用 整数 数组 进行 下 标 运算 。 

nonzero(a) 返 回 数 组 a 中 值 不 为 零 的 元 素 的 下 标 , 它 的 返回 值 是 一 个 长 度 为 andim( 数 组 a 的 
轴 数 ) 的 元 组 ， 元 组 的 每 个 元 素 都 是 一 个 整数 数组 ， 其 值 为 非 零 元 素 的 下 标 在 对 应 轴 上 的 值 。 例 
如 对 于 一 维 布尔 数组 bl，nonzero(a) 所 得 到 的 是 一 个 长 度 为 1 的 元 组 ， 它 表示 bl[0 和 blD2] 的 值 
不 为 0。 


剖 若 只 需要 沿 着 指定 轴 通 过 布尔 数组 获取 元 素 ， 可 以 使 用 numpycompress0 函 数 。 


bl = np.array([True，False，True，False]) 
np.nonzero(b1) 


(array([@, 2]),) 


对 于 二 维 数组 bD，nonzero(9) 所 得 到 的 是 一 个 长 度 为 2 的 元 组 。 它 的 第 0 个 元 素 是 数组 a 中 
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值 不 为 0 的 元 素 的 第 0 轴 的 下 标 , 第 1 个 元 素 则 是 第 1 轴 的 下 标 , 因此 从 下 面 的 结果 可 知 b2[0,0]、 
b2[02] 和 b2[1.0] 的 值 不 为 0: 


b2 = np.array([[True，False，True]，[True，False，False]]) 
np.nonzero(b2) 
(array([6，6，1])，array([6，2，96])) 


当 布 尔 数组 直接 作为 下 标 时 ， 相 当 于 使 用 由 nonzero0 转 换 之 后 的 元 组 作为 下 标 对 象 ， 


a = np.arange(3 * 4 * 5).reshape(3, 4, 5) 
a[b2] a[np.nonzero(b2)] 


Ela0s 3 2 3 MIO Ts 2 As 
[10, 11, 12, 13, 14],[10, 11, 12, 13, 14], 
[20, 21, 22, 23, 24]][28, 21, 22, 23, 24]] 


当下 标 对 象 是 元 组 ， 并 且 其 中 有 布尔 数组 时 ， 相 当 于 将 布尔 数组 展开 为 由 nonzeros0 转 换 
之 后 的 各 个 整数 数组 : 


a[1:3，b2] a[1:3, np.nonzero(b2)[8], np.nonzero(b2)[1]] 


[[20, 22, 25], [[20, 22, 25], 
[40, 42, 45]] [460, 42, 45]] 


2.4 庞大 的 函数 库 


A 与 本 节 内 容 对 应 的 Notebook 为 : 02-numpy/numpy-400-functions.ipynb。 


除了 前 面 介绍 的 ndarray 数组 对 象 和 ufunc 函数 之 外 , NumPy 还 提供 了 大 量 对 数组 进行 处 理 
的 函数 。 充 分 利用 这 些 函 数 ， 能 够 简化 程序 的 逻辑 ， 提 高 运算 速度 。 本 节 通 过 一 些 较 常 用 的 例 
子 ， 说 明 它 们 的 一 些 使 用 技巧 和 注意 事项 。 
2.4.1 ”随机 数 
本 节 介绍 的 函数 如 表 2-3 所 示 。 
表 2-3 本 节 要 介绍 的 函数 


ee 和 
rand 0 到 1 之 间 的 随机 数 标准 正 态 分 布 的 随机 数 


randint 指定 范围 内 的 随机 整数 正 态 分布 


( 续 表 ) 
功能 


均匀 分 布 泊 松 分 布 
随机 排列 随机 打 乱 顺序 
随机 抽取 样本 设置 随机 数 种 子 


numpy.random 模块 中 提供 了 大 量 的 随机 数 相 关 的 函数 , 为 了 方便 后 面 用 随机 数 测 试 各 种 运 
算 函 数 ， 让 我 们 首先 来 看 看 如 何 产生 随机 数 : 
erand0 产 生 0 到 1 之 间 的 随机 浮 点 数 ， 它 的 所 有 参数 用 于 指定 所 产生 的 数组 的 形状 。 
e randn0 产 生 标准 正 态 分 布 的 随机 数 ， 参 数 的 含义 与 rand0 相 同 。 
e randint0) 产 生 指 定 范围 的 随机 整数 ， 包 括 起 始 值 ， 但 是 不 包括 终 值 ， 在 下 面 的 例子 中 ， 
产生 0 到 9 的 随机 数 ， 它 的 第 三 个 参数 用 于 指定 数组 的 形状 : 


from numpy import random as nr 
np.set_printoptions(precision=2) # 为 了 节省 篇 幅 ， 只 显示 小 数 点 后 两 位 数字 
rl = nr.rand(4, 3) 
r2 = nr.randn(4, 3) 
r3 = nr.randint(6, 10, (4, 3)) 

ri i F3 


[[ 8.87， 8.42, 0.34], [[-1.32, -6.63, -6.65], [[5, 9, 1], 
[ 8.25, 8.87， 0.42], [ 08.34, -6.42, -8.41], [2, 9, 8], 
[ 8.49， 8.18， 8.44], [ 8.59, -6.49, -6.901], [2, 6, 6], 
[0.53, 0.23, 0:81]] [=1.92, =:0.13, =1.34]] [3, 8, 1]] 


random 模块 提供 了 许多 产生 符合 特定 随机 分 布 的 随机 数 的 函数 ， 它 们 的 最 后 一 个 参数 size 
都 用 于 指定 输出 数组 的 形状 ， 而 其 他 参数 都 是 分 布 函 数 的 参数 。 例 如 : 
。 normal0: 正 态 分 布 ， 前 两 个 参数 分 别 为 期 望 值 和 标准 差 。 
e uniform0: 均匀 分 布 ， 前 两 个 参数 分 别 为 区 间 的 起 始 值 和 终 值 。 
e poisson0: 泊 松 分 布 ， 第 一 个 参数 指定 4 系数 ， 它 表示 单位 时 间 ( 或 单位 面积 ) 内 随机 事 
件 的 平均 发 生 率 。 由 于 泊 松 分 布 是 一 个 离散 分 布 , 因此 它 输出 的 数组 是 一 个 整数 数组 。 


rl = nr.normal(100, 10, (4, 3)) 
r2 = nr.uniform(10, 20, (4, 3)) 
r3 = nr.poisson(2.06, (4, 3)) 
on. r2 D3 


[[ 162.89， 163.56， 111.46],[[ 19. ， 18.69, 14.38], [[3, 1, 5], 
83540 122.360 O8311 [17:97 10516 122471 0 [223 

[ 87.95, 166.89， 99.28], [ 19.36, 16.91， 19.65], [2, 4, 4], 
[ 92.66, 163.13， 166.28]] [ 16.79, 16.46, 16.32]] [2, 2, 3]] 
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permutation0 可 以 用 于 产生 一 个 乱 序数 组 ， 当 参数 为 整数 n 时 ， 它 返回 [0n) 这 n 个 整数 的 随 
机 排列 ， 当 参数 为 一 个 序列 时 ， 它 返回 一 个 随机 排列 之 后 的 序列 : 


a = np.array([1，196，26，36，46]) 
print nr.permutation(16) 

print nr.permutation(a) 

F243 5 :68 0197] 

[46 1 10 26 36] 


permutation0 返 回 一 个 新 数组 ， 而 shuffle0 则 直接 将 参数 数组 的 顺序 打 乱 : 


nr.shuffle(a) 
a 
array([ 1，26，36，16，46]) 


choice0 从 指定 的 样本 中 随机 进行 抽取 : 

e Size 参数 用 于 指定 输出 数组 的 形状 。 

e@ ”replace 参数 为 True 时 , 进行 可 重复 抽取 , 而 为 False 时 进行 不 重复 抽取 , 默认 值 为 True。 
所 以 在 下 面 的 例子 中 ，cl 中 可 能 有 重复 数值 ， 而 c2 中 的 每 个 数值 都 是 不 同 的 。 

e p 参数 指定 每 个 元 素 对 应 的 抽取 概率 ， 如 果 不 指定 ， 所 有 的 元 素 被 抽取 到 的 概率 相同 。 
在 下 面 的 例子 中 , 值 越 大 的 元 素 被 抽 到 的 概率 越 大 , 因此 c3 中 数值 较 大 的 元 素 比较 多 。 


a = np.arange(10, 25, dtype=float) 
cl1 = nr.choice(a, size=(4, 3)) 
C2 = nr.choice(a, size=(4, 3), replace=False) 
c3 = nr.choice(a, size=(4, 3), p=a / np.sum(a)) 
C1 C2 C3 


为 了 保证 每 次 运行 时 能 重 现 相同 的 随机 数 ， 可 以 通过 seed0 函 数 指定 随机 数 的 种 子 。 在 下 
面 的 例子 中 ， 计 算 马 和 吗 之 前 ， 都 使 用 42 作为 种 子 ， 因 此 得 到 的 随机 数组 是 相同 的 : 


rl = nr.randint(6，1686，3) 
r2 = nr.randint(6，1686，3) 
nr.seed(42) 
r3 = nr.randint(86, 160, 3) 
nr.seed(42) 
r4 = nr.randint(6，166，3) 


[84, 14, 46] [23，26，66] [51, 92, 14] [51, 92, 14] 


2.4.2” 求 和 、 平 均值 、 方 差 


本 节 介 绍 的 函数 如 表 24 所 示 。 
表 2-4 本 节 要 介绍 的 函数 


average 


Var 


sum0 计 算数 组 元 素 之 和 ， 也 可 以 对 列表 、 元 组 等 与 数组 类 似 的 序列 进行 求 和 。 当 数组 是 
维 时 ， 它 计算 数组 中 所 有 元 素 的 和 。 这 里 我 们 使 用 random.randint0 模 块 中 的 函数 创建 一 个 随机 
整数 数组 。 


np.random.seed(42) 
a = np.random.randint(8,16,size=(4,5)) 
a np.sum(a) 


如 果 指 定 axis 参 数 ， 则 求 和 运算 沿 着 指定 的 轴 进 行 。 在 上 面 的 例子 中 ， 数 组 a 的 第 0 轴 的 
长 度 为 4， 第 1 轴 的 长 度 为 5。 如 果 axis 参数 为 1， 则 对 每 行 上 的 5 da 所 得 的 结果 是 长 
度 为 4 的 一 维 数组 。 如 果 参 数 axis 为 0， 则 对 每 列 上 的 4 个 数 求 和 ， 结 果 是 长 度 为 5 的 一 维 数 
组 。 即 结果 数组 的 形状 是 原始 数组 的 形状 除去 其 第 axis 个 元 素 : 


np.sum(a, axis=1) np.sum(a，axis=6) 


[26, 28, 24, 18] [22, 13, 27, 18, 16] 


当 axis 参 数 是 一 个 轴 的 序列 时 ， 对 指定 的 所 有 轴 进 行 求 和 运算 。 例 如 下 面 的 程序 对 一 个 形 
状 为 ,3,9) 的 三 维 数组 的 第 0 和 第 2 轴 求 和 ， 得 到 的 结果 为 一 个 形状 为 (3,) 的 数组 。 由 于 数组 的 
所 有 元 素 都 为 1， 因此 求 和 的 结果 都 是 8: 


np.sum(np.ones((2, 3, 4)), axis=(6, 2)) 
array([ 8., 8., 8.]) 
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有 时 我 们 希望 能 够 保持 原 数组 的 维 数 ， 这 时 可 以 设置 keepdims 参数 为 True: 


np.sum(a, 1, keepdims=True) np.sum(a, 6, keepdims=True) 


[[26]， D2259139 2730818:816]] 


sum0 默 认 使 用 和 数组 的 元 素 类 型 相同 的 累加 变量 进行 计算 , 如 果 元 素 类 型 为 整数 , 则 使 用 
的 默认 整数 类 型 作为 累加 变量 ， 例 如 在 32 位 系统 中 使 用 32 位 整数 作为 累加 变量 。 因 此 对 
整数 数组 进行 累加 时 可 能 会 出 现 溢出 问题 ， 即 数组 元 素 的 总 和 超过 了 累加 变量 的 取 值 范围 。 下 
面 的 程序 计算 数组 a 中 每 个 元 素 占 其 所 在 行 总 和 的 百分比 。 在 调用 sum0 函 数 时 ; 

e 设置 dtype 参数 为 float， 这 样 得 到 的 结果 是 浮 点 数组 ， 能 避免 整数 的 整除 运算 。 

e 设置 keepdims 参数 为 Tme， 这 样 sum0 得 到 的 结果 的 形状 为 (4,1)， 能 够 和 原始 数组 进行 
广播 运算 。 


o 
二 


pa = ay/ np.sum(a, 1, dtype=float, keepdims=True) * 166 
pa pa.sum(1, keepdims=True) 
[[ 23.68， 11.54, 26.92, 15.38， 23.68],[[ 1608.], 
[e327143 7014 215437 0 25 14s29] [1003] 
52017 00.17 0 333 220583] To0N] 
[ 22.22, 5.56, 38.89， 27.78， 5.56]][ 160.]] 


对 很 大 的 单 精 度 浮 点 数 类 型 的 数组 进行 计算 时 ， 也 可 能 出 现 精度 不 够 的 现象 ， 这 时 也 可 以 
通过 dtype 参数 指定 累加 变量 的 类 型 。 在 下 面 的 例子 中 , 我们 对 一 个 元 素 都 为 1.1 的 单 精度 数组 
进行 求 和 ， 比 较 单 精度 累加 变量 和 双 精 度 累 加 变量 的 计算 结果 : 


np.set_printoptions(precision=8) 

b = np.ful1(16666696，1.1，dtype=np.float32) # 创建 一 个 很 大 的 单 精度 浮 点 数 数组 
b # 1.1 无 法 使 用 浮 点 数 精确 表示 ， 存 在 一 些 误差 

array([ 1.16666662， 1.10000002， 1.10000002，...， 1.10000002， 
1.16666662， 1.16666662]，dtype=float32) 


使 用 单 精度 累加 变量 进行 累加 计算 ， 误 差 将 越 来 越 大 ， 而 使 用 双 精 度 浮 点 数 则 能 够 得 到 较 
精确 的 结果 : 


np.sum(b) np.sum(b，dtype=np.double) 


1699999.3 ”1166666.6238418579 
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上 面 的 例子 将 产生 一 个 新 的 数组 来 保存 求 和 的 结果 ， 如 果 希 望 将 结果 直接 保存 到 另 一 个 

数组 中 ， 可 以 和 ufunc 函数 一 样 使 用 out 参数 指定 输出 数组 ， 它 的 形状 必须 和 结果 数组 的 形状 

相同 。 
mean0 求 数组 的 平均 值 ， 它 的 参数 与 sam0 相 同 。 和 sum0 不 同 的 是 : 对 于 整数 数组 它 使 

双 精 度 浮 点 数 进行 计算 ， 而 对 于 其 他 类 型 的 数组 ， 则 使 用 和 数组 元 素 类 型 相同 的 累加 变量 进行 

计算 : 
np.mean(a，axis=1) # 整数 数组 使 用 双 精 度 浮 点 数 进行 计算 
srrayt[ Sr SD A JI 


np.mean(b) np.mean(b, dtype=np.double) 


1.6999993 “1.1666666238418579 


此 外 ，average0 也 可 以 对 数组 进行 平均 计算 。 它 没有 out 和 dtype 参数， 但 有 一 个 指定 每 个 
元 素 权 值 的 weights 参数 ， 可 以 用 于 计算 加 权 平 均 数 。 例 如 有 三 个 班级 ，number 数组 中 保存 每 
个 班级 的 人 数 ，score 数组 中 保存 每 个 班级 的 平均 分 ， 下 面 计算 所 有 班级 的 加 权 平 均 分， 得 到 整 
个 年 级 的 平均 分 : 

score = np.array([83, 72, 79]) 

number = np.array([26，15，36]) 

print np.average(score, weights=number) 

78.6153846154 


相当 于 进行 如 下 计算 : 
print np.sum(score * number) / np.sum(number, dtype=float) 
78.6153846154 


数组 的 标准 差 和 方差 ， 有 axis、out、dtype 以 及 keepdims 等 参数 。 方 差 


std0 和 var0 分 别 计算 
(biased sample variance) 和 无 偏 样本 方差 (unbiased sample variance)。 偏 样 


有 两 种 定义 ， 偏 样本 方差 
本 方差 的 计算 公式 为 : 


而 无 偏 样本 方差 的 公式 为 : 


当 ddof 参数 为 0 时 ， 计 算 偏 样本 方差 ， 当 ddof 为 1 时， 计算 无 偏 样 本 方差 ， 默 认 值 为 0。 
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面 我 们 用 程序 演示 这 两 种 方差 的 差别 。 

首先 产生 一 个 标准 差 为 2.0、 方 差 为 40 的 正 态 分 布 的 随机 数组 。 我 们 可 以 认为 总 体 样本 的 
方差 为 40。 假设 从 总 体 样本 中 随机 抽取 10 个 样本 ， 我 们 分 别 计算 这 10 个 样本 的 两 种 方差 ， 这 
里 我 们 用 一 个 二 维 数组 重复 上 述 操作 100000 次 ， 然 后 计算 所 有 这 些 方差 的 期 望 值 ; 


a = nr.normal(6，2.6，(166666，16)) 
v1 = np.var(a，axis=1，ddof=8) # 可 以 省 略 ddof=@ 
v2 = np.var(a, axis=1, ddof=1) 

np.mean(v1) np.mean(v2) 


3.6668566966846693 ”4.68669518785385216 

可 以 看 到 无 偏 样本 方差 的 期 望 值 接近 于 总 体 方差 4.0， 而 偏 样本 方差 比 4.0 小 一 些 。 

偏 样本 方差 是 正 态 分 布 随机 变量 的 最 大 似 然 估计 。 如 果 有 一 个 样本 包含 n 个 随机 数 ， 并 且 
知道 它们 符合 正 态 分 布 ， 通 过 该 样本 可 以 估算 出 正 态 分 布 的 概率 密度 函数 的 参数 。 所 估算 的 那 
组 正 态 分 布 参数 最 符合 给 定 的 样本 ， 就 称 为 最 大 似 然 估计 。 

正 态 分 布 的 概率 密度 函数 的 定义 如 下 ， 其 中 必 表示 期 望 ，a2? 表 示 方 差 : 
下 
f(x lmua2) = 于 e 20 


所 谓 最 大 似 然 估 计 ， 就 是 找到 一 组 参数 使 得 下 面 的 乘积 最 大 ， 其 中 xi 为 样本 中 的 值 ; 
f(x1)f(x2) *… f(xn) 
专业 术语 总 是 很 难 理解 ， 下 面 我 们 还 是 用 程序 来 验证 : 


def normal_pdf(mean, var, x): 
return 1 / np.sqrt(2 * np.pi * var) * np.exp(-(x - mean) ** 2 / (2 * var)) 


nr.seed(42) 

data = nr.normal(0, 2.0, size=10) 0 
mean, var = np.mean(data), np.var(data) 
var_range = np.linspace(max(var - 4, 6.1), var + 4，166) © 


p = normal_pdf(mean, var_range[:, None], data) 9 


p = np.product(p, axis=1) © 


normal_pdf0 为 计算 正 态 分 布 的 概率 密度 的 函数 。 @ 产 生 10 个 正 态 分 布 的 随机 数 。 @ 计 算 划 
最 大 似 然 估 计 的 参数 。@ 以 最 大 似 然 估 计 的 方差 为 中 心 ， 产 生 一 组 方差 值 。@ 用 正 态 分 布 的 概 
率 密度 函数 计算 每 个 样本 、 每 个 方差 所 对 应 的 概率 密度 。 由 于 使 用 了 广播 运算 ， 得 到 的 结果 p 
是 一 个 二 维 数组 ， 它 的 第 0 轴 对 应 var_ range 中 的 各 个 方差 ， 第 1 轴 对 应 data 中 的 每 个 元 素 。@ 
沿 着 p 的 第 1 轴 求 所 有 概率 密度 的 乘积 。product0 和 sum0 的 用 法 类 似 ， 用 于 计算 数组 所 有 元 素 
的 乘积 。 
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下 面 绘制 var_range 中 各 个 方差 对 应 的 似 然 估 计 值 ， 并 用 一 条 竖 线 表示 偏 样本 方差 。 由 图 
2-8 可 以 看 到 偏 样本 方差 位 于 似 然 估计 曲线 的 最 大 值 处 。 


import pylab as pl 
pl.plot(var_range, p) 
pl.axvline(var, 6, 1, c="r") 
pl.show() 


要 

SS 

El 

3 

3 

图 2-8 偏 样本 方差 位 于 似 然 估计 曲线 的 最 大 值 处 从 

处 

2.4.3 大 小 与 排序 站 
据 


十 应 的 Notebook 为 : 02-numpy/numpy-410-functions-sort.ipynb。 


| 表 2-5 所 示 。 


表 2-5 本 节 要 介绍 的 函数 


函数 名 功能 
min 及 小 值 最 大 值 
minimum -元 最 小 值 -元 最 大 值 
ptp 最 大 值 与 最 小 值 的 差 gmi 最 小 值 的 下 标 
argmax 维 下 标 转换 成 多 维 下 标 
sort 计算 数组 排序 的 下 标 
lexsort 多 列 排 iti 快速 计算 前 k 位 
argpartition 前 k 位 的 下 标 i 中 位 数 
percentile searchsorted 二 分 查找 


用 min0 和 max0 可 以 计算 数组 的 最 小 值 和 最 大 值 ， 它 们 都 有 axis、out、keepdims 等 参数 。 
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这 些 参数 的 用 法 和 sum0 基 本 相同 , 但 是 axis 参数 不 支持 序列 。 此 外 ，ptp0 计 算 最 大 值 和 最 小 值 
之 间 的 差 ， 有 axis 和 out 参数 。 这 里 就 不 再 多 举例 了 ， 请 读者 自行 查看 函数 的 文档 。minimum0 
和 maximum0 用 于 比较 两 个 数组 对 应 下 标的 元 素 ， 返 回 数组 的 形状 为 两 参数 数组 广播 之 后 的 


a = np.array([1, 3, 5, 7]) 
b = np.array([2, 4, 6]) 
np.maximum(a[None, :], b[:, None]) 
array([[2, 3, 5, 7], 

[4, 4, 5, 7], 

[6, 6, 6, 7]]) 


用 argmax0 和 argmin0 可 以 求 最 大 值 和 最 小 值 的 下 标 。 如 果 不 指定 axis 参数 , 则 返回 平坦 化 
之 后 的 数组 下 标 ， 例 如 下 面 的 程序 找到 a 中 最 大 值 的 下 标 ， 有 多 个 最 值 时 得 到 第 一 个 最 值 的 
下 标 : 


np.random. seed(42) 

a = np.random.randint(6, 10, size=(4, 5)) 
max_pos = np.argmax(a) 

max_pos 

每 


下 面 查看 a 平坦 化 之 后 的 数组 中 下 标 为 max_pos 的 元 素 : 


a.ravel()[max_pos] np.max(a) 


可 以 通过 unravel_index0 将 一 维 数组 的 下 标 转换 为 多 维 数组 的 下 标 ， 它 的 第 一 个 参数 为 一 
维 数组 的 下 标 ， 第 二 个 参数 是 多 维 数组 的 形状 : 
idx = np.unravel_index(max_pos, a.shape) 


idx a[idx] 


当 使 用 axis 参 数 时 ， 可 以 沿 着 指定 轴 计 算 最 大 值 的 下 标 。 例 如 下 面 的 结果 表示 ， 在 数组 a 
和 0 行 的 最 大 值 的 下 标 为 2， 第 1 行 的 最 大 值 的 下 标 为 0: 


idx = np.argmax(a, axis=1) 
idx 
array([2, 8, 1, 2]) 


使 用 下 面 的 语句 可 以 通过 idx 选 出 每 行 的 最 大 值 : 


a[np.arange(a.shape[6])，idx] 
array([7, 9, 7, 7]) 


数组 的 sort0 方 法 对 数组 进行 排序 ， 它 会 改变 数组 的 内 容 ， 而 sort0 函 数 则 返回 一 个 新 数组 ， 
不 改变 原始 数组 。 它 们 的 axis 默认 值 都 为 -1， 即 沿 着 数组 的 最 终 轴 进行 排序 。sort0 函 数 的 axis 
参数 可 以 设置 为 None, 此 时 它 将 得 到 平坦 化 之 后 进行 排序 的 新 数组 。 在 下 面 的 例子 中 , np.sort(a) 
对 a 中 每 行 的 数值 进行 排序 ， 而 np.sort(a, axis=0) 对 数组 a 每 列 上 的 数值 进行 排序 。 


np.sort(a) np.sort(a，axis=6) 
[[3, 4, 6, 6, 7], [[3, 1, 6, 2, 1], 
[2, 4, 6, 7; 9], [4; 2, 7, 4, 4]， 
C355207710 163 7.5 3] 
[1; 1 4; 5; 7]] [9; 7, 7, 7, 6]] 


argsort0 返 回 数组 的 排序 下 标 ， 参 数 axis 的 默认 值 为 -1: 


sort_axis1 = np.argsort(a) 
sort_axise = np.argsort(a，axis=6) 


sort_axis1 sort_axis@ 


4 Pl) 二 3 
J 
| 
rymall He TH 


为 了 使 用 sort_axis0 和 sort_axisl 计算 排序 之 后 的 数组 ， 即 np.sort(a) 的 结果 ， 需 要 产生 非 排 
序 轴 的 下 标 。 下 面 使 用 ogrid 对 象 产生 第 0 轴 和 第 1 轴 的 下 标 axis0 和 axis1: 


axis@, axis1l = np.ogrid[:a.shape[8], :a.shape[1]] 
然后 使 用 这 些 下 标 数 组 得 到 排序 之 后 的 数组 : 


a[axis@, sort axis1] a[sort axis@, axis1] 


[[3, 4, 6, 6, 7]， [[3, 1, 6, 2, 1]> 
[2, 4; 6, 7, .9], [4, 2, 7, .4, 4]， 
[23 [L637 7 5, Sl 
| Se er | Pe Fi A | 


使 用 这 种 方法 可 以 对 两 个 相关 联 的 数组 进行 排序 ， 即 从 数组 a 产生 排序 下 标 数 组 ， 然 后 使 
它 对 数组 b 进 行 排序 。 排 序 相关 的 函数 或 方法 还 可 以 通过 kind 参数 指定 排序 算法 ， 对 于 结构 
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数组 可 以 通过 order 参 数 指定 排序 所 使 用 的 字段 。 

lexsort0 类 似 于 Excel 中 的 多 列 排序 。 它 的 参数 是 一 个 形状 为 de N) 的 数组 ， 或 者 包含 k 个 长 
度 为 N 的 数组 的 序列 ， 可 以 把 它 理 解 为 Excel 中 N 行 k 列 的 表格 。lexsort0 返 回 排序 下 标 ， 注 意 
数组 中 最 后 的 列 为 排序 的 主键 。 在 下 面 的 例子 中 ， 按 照 “ 姓 名 -年 龄 ”的 顺序 对 数据 排序 : 


names = ["zhang", "wang", "li", "wang", "zhang"] 

ages = [37, 33, 32, 31, 36] 

idx = np.lexsort([ages, names]) 

sorted data = np.array(zip(names, ages), "0")[idx] 
idx sorted_data 


bares A GIT 
['wang', 31], 

['wang' , 33], 

['zhang', 36], 

['zhang', 37]] 


如 果 需 要 对 一 个 N 行 k 列 的 数组 以 第 一 列 为 主键 进行 排序 ， 可 以 先 通过 切片 下 标 ::-1 反 转 
数组 的 第 1 轴 ， 然 后 对 其 转 置 进行 lexsort0 排 序 : 


b = np.random.randint(6，186，(5，3)) 
b b[np.lexsort(b[:, ::-1].T)] 


@, 9]， [[3, 8, 2], 
8, 0], [4, 8, 9], 
[9, 2, 6], [4, 2, 6], 
8, 2], [5, 8, 6]， 
25.6]] 0 "(9,261]] 


partition0 和 argpartition0 对 数组 进行 分 割 ， 可 以 很 快 地 找 出 排序 之 后 的 前 k 个 元 素 ， 由 于 它 
不 需要 对 整个 数组 进行 完整 排序 ， 因此 速度 比 调用 sort0 之 后 再 取 前 k 个 元 素 要 快 许多 。 下 面 从 
10 万 个 随机 数 中 找 出 前 5 个 最 小 的 数 , 注意 partition0 得 到 的 前 5 个 数值 没有 按照 从 小 到 大 排序 ， 
如 果 需 要 ， 可 以 再 调用 sort0 对 这 5 个 数 进行 排序 即 可 : 


r = np.random.randint(196，16668686，166666) 
np.sort(r)[:5] np.partition(r，5)[:5] 


[15, 23, 25, 37, 47] [15, 47, 25, 37, 23] 


下 面 用 %timeit 测试 sort0 和 partition0 的 运行 速度 : 


%timeit np.sort(r)[:5] 
%timeit np.sort(np.partition(r, 5)[:5]) 
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166 loops, best of 3: 6.62 ms per loop 
1666 loops, best of 3: 348 hs per loop 


median0 可 以 获得 数组 的 中 值 ， 即 对 数组 进行 排序 之 后 ， 位 于 数组 中 间 位 置 的 值 。 当 长 


度 是 偶数 时 ， 则 得 到 正中 间 两 个 数 的 平均 值 。 它 也 可 以 指定 axis 和 out 参数 : 


np.median(a, axis=1) 
hpay([ Oa v0 D7 


percentile0 用 于 计算 百 分 位 数 ， 即 将 数值 从 小 到 大 排列 ， 计 算 处 于 p% 位 置 上 的 值 。 下 面 的 


蛙 序 计算 标准 正 态 分 布 随 机 数 的 绝对 值 在 68.3%、95.4% 以 及 99.7% 处 的 百 分 位 数 ， 它 们 应 该 约 
等 于 1 倍 、2 倍 和 3 倍 的 标准 差 : 


r= np.abs(np.random.randn(166666)) 
np.percentile(r, [68.3, 95.4, 99.7]) 
array([ 1.60029686, 1.99473663， 2.9614485 ]) 


返回 


当 数 组 中 的 元 素 按照 从 小 到 大 的 顺序 排列 时 ， 可 以 使 用 searchsorted0 在 数组 中 进行 二 分 搜 
索 。 在 
-个 下 标 数组 ， 将 v 中 对 应 的 元 素 插入 到 a 中 的 位 置 ， 能 够 保持 数据 的 升序 排列 。 当 v 中 


面 的 例子 中 ，a 是 一 个 已 经 排 好 序 的 列表 ，v 是 需要 搜索 的 数值 列表 。searchsortedO 


的 元 素 在 a 中 出 现时 ， 通 过 side 参数 指定 返回 最 左 端的 下 标 还 是 最 右 端 的 下 标 。 在 下 面 的 例子 
中 ，16 放 到 a 的 下 标 为 3、4、5 的 位 置 都 能 保持 升序 排列 ，side 参数 为 默认 值 "left" 时 返回 3， 而 
为 "right" 时 返回 5。 


a = [2, 4, 8, 16, 16, 32] 
v = [1, 5, 33, 16] 
np.searchsorted(a, v) np.searchsorted(a, v, side="right") 


[e, 2, 6, 3] [e, 2, 6, 5] 


searchsorted0 可 以 用 于 在 两 个 数组 中 查找 相同 的 元 素 。 下 面 看 一 个 比较 复杂 的 例子 ， 有 x 


和 y 两 个 一 维 数组 ， 找 到 y 中 每 个 元 素 在 x 中 的 下 标 。 若 不 存在 ， 将 下 标 设置 为 -1。 


x = np.array([3，5，7，1，9，8，6，16]) 
y = np.array([2，1，5，16，166，6]) 


def get_index_searchsorted(x, y): 
index = np.argsort(x) © 
sorted x = x[index] ©@ 
sorted jndex = np.searchsorted(sorted x, y) ©@ 
yindex = np.take(index, sorted index, mode="clip") @ 
mask = x[yindex] !=y ©@ 
yindex[mask] = -1 
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return yindex 


get_index_searchsorted(x, y) 
Mh 


@ 由 于 x 并 不 是 按照 升序 排列 ,因此 先 调用 argsort0 获 得 升序 排序 的 下 标 index。@ 使 用 index 


获得 将 x 排序 之 后 的 sorted_x。 和 目 使 用 searchsorted0 在 sorte_x 中 搜索 y 中 每 个 元 素 对 应 的 下 标 


Sorted_index。 


@ 如 果 搜 索 的 值 大 于 x 的 最 大 值 ， 那 么 下 标 会 越界 ， 因 此 这 里 调用 take0 函 数 ， 全 nd 
sorted_index) 与 index[sorted_index] 的 含义 相同 ， 但 是 能 处 理 下 标 越界 的 情况 。 通 过 设置 mode 参 
数 为 "dip"， 将 下 标 限定 在 0 到 1len(x)-1 之 间 。 


@ 使 用 yindex 获取 x 中 的 元 素 关 
则 表示 不 存在 。 
这 段 算法 有 些 复杂 ， 但 由 于 利 | 


:和 y 比较 ， 若 值 相同 则 表示 该 元 素 确实 存在 于 x 之 中 ， 耕 


1 了 Numpy 提供 的 数组 操作 函数 ， 它 的 运算 速度 比 使 用 字 


典 的 纯 Python 程序 要 快 。 下 面 我 们 用 两 个 较 大 的 数组 测试 运算 速度 。 为 了 比较 的 公平 性 ,我 们 


调用 tolist0 方 法 将 数组 转换 成 列表 : 


x = np.random.permutation(1666) 


[:166] 


y = np.random.randint(86，16868，2666) 


xl, yl = x.tolist(), y.tolist() 


def get_ index dict(x, y): 


idx map = {v:i for i,v in enumerate(x)} 
yindex = [idx_map.get(v, -1) for v in y] 


return yindex 


yindex1 = get_index_searchsorted(x, y) 
yindex2 = get_index dict(xl, yl) 
print np.all(yindex1 == yindex2) 


%timeit get_index_searchsorted(x, y) 


%timeit get_index dict(xl, yl) 
True 
16666 loops, best of 3: 122 hs 


per loop 


1666 loops, best of 3: 368 hs per loop 


2.4.4 统计 函数 


I 与 本 节 内 容 对 应 的 Notebook 为 : 02-numpy/numpy-420-functions-count.ipynb。 
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本 节 介绍 的 函数 如 表 2-6 所 示 。 


表 2.6 本 节 要 介绍 的 函数 


函数 名 功能 功能 
unique 去 除 重复 元 素 bincount | 对 整数 数组 的 元 素 计数 


- 维 直方 图 统计 离散 化 


unique0 返 回 其 参数 数组 中 所 有 不 同 的 值 ， 并 且 按 照 从 小 到 大 的 顺序 排列 。 它 有 两 个 可 选 


源 


e@ returmn_index: Ture 表示 同时 返回 原始 数组 中 的 下 标 。 

e retum_inverse: True 表示 返回 重建 原始 数组 用 的 下 标 数组 。 

下 面 遂 过 几 个 例子 介绍 unique0 的 用 法 。 首先 用 randint0 创 建 有 10 个 元 素 、 值 在 0 到 9 范围 
之 内 的 随机 整数 数组 ， 通 过 unique(g) 可 以 找到 数组 a 中 所 有 的 整数 ， 并 按照 升序 排列 ， 


np.random.seed(42) 
a = np.random.randint(6，8，19) 


a np.unique(a) 


[6, 3, 4, 6, 2, 7, 4, 4, 6, 1] [1, 2, 3, 4, 6, 7] 


如 果 参 数 return_index 为 True， 则 返回 两 个 数组 ， 第 二 个 数组 是 第 一 个 数组 在 原始 数组 中 
的 下 标 。 在 下 面 的 例子 中 ， 数 组 index 保存 的 是 数组 x 中 每 个 元 素 在 数组 a 中 的 下 标 : 


x, index = np.unique(a, return_index=True) 


实 index a[index] 


[1, 2, 3, 4, 6, 7] [9, 4, 1, 2, 8, 5] [1, 2, 3, 4, 6, 7] 


如 果 参 数 retum_inverse 为 True， 则 返回 的 第 二 个 数组 是 原始 数组 a 的 每 个 元 素 在 数组 x 中 
的 下 标 : 
x, rindex = np.unique(a, return_inverse=True) 


rindex x[rindex] 


[4, 2, 3, 4, 1, 5, 3, 3, 4, 8] [6, 3, 4, 6, 2, 7, 4, 4, 6, 1] 


bincount0 对 整数 数组 中 各 个 元 素 所 出 现 的 次 数 进行 统计 , 它 要 求 数组 中 的 所 有 元 素 都 是 非 
负 的 。 其 返回 数组 中 第 i 个 元 素 的 值 表示 整数 i 出 现 的 次 数 。 


np.bincount(a) 
array([0, 15 15 15 3 80; 3; 1]) 
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上 面 的 结果 可 知 ， 在 数组 a 中 有 1 个 1、1 个 2、1 个 3、3 个 4、3 个 6 和 1 个 7, 而 0、5 
等 数 没有 在 数组 a 中 出 现 。 

通过 weights 参数 可 以 指定 每 个 数 所 对 应 的 权 值 。 当 指定 weights 参数 时 ，bincount(x, 
weights=w) 返 回 数 组 x 中 的 每 个 整数 所 对 应 的 w 中 的 权 值 之 和 。 用 文字 解释 比较 难以 理解 ， 下 
面 我 们 看 一 个 实例 : 

Wr 0 a RI 才 志 

w= np.array([6.1，6.3，6.2，6.4，6.5，6.8，1.2]) 

np.bincount(x，w) 

may( 3. v0. .076]) 


在 上 面 的 结果 中 ,1.3 是 数组 x 中 0 所 对 应 的 w 中 的 元 素 (0.1 和 12) 之 和 ,1.6 是 1 所 对 应 的 
w 中 的 元 素 (0.3、0.5 和 0.8) 之 和 ， 而 06 是 2 所 对 应 的 w 中 的 元 素 (0.2 和 0.4) 之 和 。 如 果 要 求 平 
均值 ， 可 以 用 求 和 的 结果 与 次 数 相 除 : 


np.bincount(x, w) / np.bincount(x) 
array([ 8.65 ys 0533333337 :0,3 ]) 


histogram0 对 一 维 数组 进行 直方 图 统计 。 其 参数 列表 如 下 : 
histogram(a, bins=10, range=None, weights=None, density=False) 


其 中 a 是 保存 待 统 计数 据 的 数组 , bins 指定 统计 的 区 间 个 数 , 即 对 统计 范围 的 等 分 数 。range 
是 一 个 长 度 为 2 的 元 组 ,表示 统计 范围 的 最 小 值 和 最 大 值 ， 默 认 值 为 None, 表示 范围 由 数据 的 
范围 决定 ， 即 (amin0,amax0)。 当 density 参数 为 False 时 ， 函 数 返 回 a 中 的 数据 在 每 个 区 间 的 个 
数 ， 参 数 为 True 则 返回 每 个 区 间 的 概率 密度 。weights 参数 和 bincount0 的 类 似 。 

histogram0 返 回 两 个 一 维 数组 一 一 hist 和 bin_edges， 第 一 个 数组 是 每 个 区 间 的 统计 结果 ， 
第 二 个 数组 的 长 度 为 len(hist) + 1， 每 两 个 相 邻 的 数值 构成 一 个 统计 区 间 。 下 面 我 们 看 一 个 
例子 : 

a = np.random.rand(166) 

np.histogram(a，bins=5，range=(86，1)) 

(array([28, 18, 17, 19, 18]), array([ 6. ， 6.2， 6.4， 9.6， 6.8， 1. ])) 


首先 创建 了 一 个 有 100 个 元 素 的 一 维 随机 数组 a, 取 值 范围 在 0 到 1 之 间 。 然 后 用 histogram0 
对 数组 a 中 的 数据 进行 直方 图 统计 。 结 果 显 示 有 28 个 元 素 的 值 在 0 到 02 之 间 ，18 个 元 素 的 值 
在 02 到 04 之 间 。 读 者 可 以 尝试 用 rand0 创 建 更 大 的 随机 数组 ， 由 统计 结果 可 知 每 个 区 间 出 现 
的 次 数 近 似 相等 ， 因 此 rand0 所 创建 的 随机 数 在 0 到 1 范围 之 间 是 平均 分 布 的 。 

如 果 需 要 统计 的 区 间 的 长 度 不 等 ， 可 以 将 表示 区 间 分 隔 位 置 的 数组 传递 给 bins 参数 ， 
例如 : 


np.histogram(a，bins=[6，6.4，6.8，1.6]) 
(array([46, 36, 18]), array([ 6. ， 6.4， 8.8, 1. ])) 

结果 表示 0 到 04 之 间 有 46 个 值 ，04 到 08 之 间 有 36 个 值 。 

如 果 用 weights 参数 指定 了 数组 a 中 每 个 元 素 所 对 应 的 权 值 ， 则 histogram0 对 区 间 中 数值 所 
对 应 的 权 值 进行 求 和 。 下 面 看 一 个 使 用 histogram0 统 计 男性 青少年 年 龄 和 身高 的 例子 heightcsv” 
文件 是 100 名 年 龄 在 7 到 20 岁 之 间 的 男性 青少年 的 身高 统计 数据 。 

首先 用 loadtxt0 从 数据 文件 载 入 数据 。 在 数组 4 中 , 第 0 列 是 年 龄 ,第 1 列 是 身高 。 可 以 看 
到 年 龄 的 范围 在 7 到 20 之 间 : 


d = np.loadtxt("height.csv", delimiter=",") 
d.shape np.min(d[:，6]) np.max(d[:，6]) 


(188，2) 7.6999999999999996 19.899999999999999 
下 面 对 数 据 进行 统计 ，sums 是 每 个 年 龄 段 的 身高 总 和 ，cnts 是 每 个 年 龄 段 的 数据 个 数 ， 因 
此 很 容易 计算 出 每 个 年 龄 段 的 平均 身高 : 


sums = np.histogram(d[:, 8], bins=range(7, 21), weights=d[:, 1])[8] 
cnts = np.histogram(d[:, 8], bins=range(7, 21))[8] 


sums / cnts 
array([ 125.96 ， 132.66666667， 137.82857143， 143.8 3 
148.14 ， 153.44 ， 162.15555556, 166.86666667， 
172.83636364， 173.3 7 75.273 ， 174.19166667， 175.675 ]) 


histogram2d0 和 histogramdd0 对 二 维和 N 维 数据 进行 直方 图 统计 ， 我 们 将 在 第 9 章 介绍 
OpenCV 时 对 histogram2d0 进 行 详细 介绍 。 
2.4.5 ”分 段 函数 
本 节 介 绍 的 函数 如 表 2-7 所 示 。 
表 2-7 本 节 要 介绍 的 函数 


函数 名 功能 
where 矢量 化 判断 表达 式 
ieceWise 分 段 函数 
select 多 分 支 判断 选择 


在 前 面 的 小 节 中 介绍 过 如 何 使 用 frompyfunc0 函 数 计算 三 角 波形 。 由 于 三 角 波形 是 分 段 函 
数 ， 需 要 根据 自 变量 的 取 值 范围 决定 计算 函数 值 的 公式 ， 因 此 无 法 直接 通过 ufunc 函数 计算 。 
NumPy 提供 了 一 些 计算 分 段 函 数 的 方法 。 
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y， 否 则 为 z: 


X = Yy if condition else z 


x = where(condition, y, z) 


x = np.arange(16) 
np.where(x < 5, 9 - x, x) 


在 NumPy 中 ，where0 函 数 可 以 看 作 判 断 表 达 式 的 数组 版 本 : 


array([9, 8, 7 6, 5, 9,6, 7, 8, 9]) 


在 Python 2.6 中 新 增加 了 如 下 判断 表达 式 语 法 ， 当 condition 条 件 为 Tme 时， 表达 式 的 值 为 


其 中 condition、y 和 z 都 是 数组 , 它 的 返回 值 是 一 个 形状 与 condition 相同 的 数组 。 当 condition 
中 的 某 个 元 素 为 Tme 时 ，x 中 对 应 下 标的 值 从 数组 y 获 取 ， 否 则 从 数组 z 获 取 : 


如 果 y 和 z 是 单个 数值 或 者 它们 的 形状 与 condition 的 不 同 ， 将 先 通过 广播 运算 使 其 形状 


np.where(x > 6, 2 * x, 0) 


mt 0 0 0 DOr Od By 


使 用 where0 很 容易 计算 前 面 介绍 过 的 三 角 波形 : 


def triangle wavel(x, c¢, c@, hc): 
x = x - x.astype(np.int) # 三 角 波 的 周期 为 1， 因 此 只 取 x 坐标 的 小 数 部 分 进行 计算 


return np.where(x >= cy， 
6， 


np.where(x < c@, 


WO he 
(c - Xx) / (c - co) * hc)) 


在 C 语 言 级 别 完成 ， 因 此 它 的 计算 效率 比 frompyfunc0 高 。 


可 以 用 select0 解 决 这 个 问题 ， 它 的 调用 形式 如 下 : 


值 都 相同 、 长 度 为 M 的 数组 。 


最 小 值 ， 则 outli]=choicelist[j] 科 ， 


select(condlist, choicelist, 
其 中 condlist 是 一 个 长 度 为 N 的 布尔 数组 列表 ，choicelist 是 一 个 长 度 为 N 的 存储 候选 值 的 
数组 列表 ， 所 有 数组 的 长 度 都 为 M。 如 果 列 表 元 素 不 是 数组 而 是 单个 数值 ， 


default=6) 


其 中 out 是 select0 的 返回 数组 。 


对 于 从 0 到 M-1 的 数组 下 标 i， 从 布尔 数组 列表 中 找 出 满足 条 件 condlist| 


那么 它 相当 于 元 素 


于 三 角 波形 分 为 三 段 , 因此 需要 两 个 购 套 的 where0 进 行 计 算 。 由 于 所 有 的 运算 和 循环 都 


着 分 段 函 数 的 分 段 数量 的 增加 , 需要 翌 套 更 多 层 where0。 这 样 不 便于 程序 的 编写 和 阅读 。 


[四 一 Tme 的 j 的 


select0 计 算 三 4 


我 们 可 以 使 


波形 : 


def triangle wave2(x, ¢, c@, hc): 
x = X - x.astype(np.int) 
return np.select([x >= c¢, x < c8 , True 
[8 ，X/cerhc，(Cc-Xx)/(c-c8@)*#hc]) 


于 分 段 函数 分 为 三 段 ， 因 此 每 个 列表 都 有 三 个 元 素 。choicelist 的 最 后 一 个 元 素 为 Tme， 
表示 前 面 的 所 有 条 件 都 不 满足 时 ， 将 使 用 choicelist 的 最 后 一 个 数组 中 的 值 。 也 可 以 用 default 参 
数 指定 条 件 都 不 满足 时 的 候选 值 数组 : 


return np.select([x>= c, x < c@ ]， 
[8 »s XxX/ * hc], 
default=(c-x)/(c-ce)*hc) 


但 是 where0 和 select0 的 所 有 参数 都 需要 在 调用 它们 之 前 完成 计算 ， 因 此 NumPy 会 计算 下 
面 4 个 数组 : 
XxX>=Cc, X《 c@,X/cerhc，(c- x)/(c -ce ) *hc 
在 计算 时 还 会 产生 许多 保存 中 间 结 果 的 数组 ， 因 此 如 果 输入 的 数组 x 很 大 ， 将 会 发 生 大 量 
内 存 分 配 和 释放 。 
为 了 解决 这 个 问题 ,NumPy 提供 了 piecewise0 专 门 用 于 计算 分 段 函 数 , 它 的 调用 参数 如 下 : 
piecewise(x, condlist, funclist) 
参数 x 是 一 个 保存 自 变 量 值 的 数组 ，condlist 是 一 个 长 度 为 M 的 布尔 数组 列表 ， 其 中 的 每 
个 布尔 数组 的 长 度 都 和 数组 x 相同 。funclist 是 一 个 长 度 为 M 或 M+l 的 函数 列表 ， 这 些 函数 的 
输入 和 输出 都 是 数组 。 它 们 计算 分 段 函数 中 的 每 个 片段 。 如 果 不 是 函数 而 是 数值 ， 则 相当 于 返 
回 此 数值 的 函数 。 每 个 函数 与 condlist 中 下 标 相同 的 布尔 数组 对 应 ,如果 funclist 的 长 度 为 M+l， 
则 最 后 一 个 函数 计算 所 有 条 件 都 为 False 时 的 值 。 下 面 是 使 用 piecewise0 计 算 三 角 波 形 的 程序 : 


def triangle wave3(x, c¢, c@, hc): 
x = x - x.astype(np.int) 
return np.piecewise(x, 
[x >= ¢, x < c6]， 
[8， # X>=Cc 
lambda x: x / c8 * hc, # x<c@ 
lambda x: (c - x) / (c - c@) * hc]) # else 


村 
后 
也 


使 用 piecewise0 的 好 处 在 于 它 只 计算 需要 计算 的 值 。 面 的 例子 中 ， 表 达 式 x/c0*he 
和 (c-x)(c-c0)*hc 只 对 输入 数组 x 中 满足 条 件 的 部 分 进行 计算 。 下面 运行 前 面 定义 的 三 个 分 段 函 
数 ， 并 使 用 %timeit 命 令 比 较 这 三 个 函数 的 运行 时 间 : 
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x = np.linspace(86，2，16666) 

yl = triangle_wave1(x，6.6，6.4，1.6) 
y2 = triangle wave2(x, 0.6, 0.4, 1.0) 
y3 = triangle wave3(x, 86.6, 0.4, 1.0) 
np.all(y1 == y2), np.all(y1 == y3) 
(True, True) 


%timeit triangle wavel(x, 6.6, 0.4, 1.0) 
%timeit triangle wave2(x, 8.6, 08.4, 1.0) 
%timeit triangle wave3(x, 8.6, 0.4, 1.6) 
1666 loops, best of 3: 614 hs per loop 
1666 loops, best of 3: 736 hs per loop 
1666 loops, best of 3: 311 hs per loop 


2.4.6 ”操作 多 维 数组 


I 与 本 节 内 容 对 应 的 Notebook 为 : 02-numpy/numpy-430-functions-array-op.ipynb。 


本 节 介 绍 的 函数 如 表 2-8 所 示 。 


表 2-8 本 节 要 介绍 的 函数 


concatenate 连接 多 个 数组 


沿 第 1 轴 连 接 数 组 
将 数组 分 为 多 段 
交换 两 个 轴 的 顺序 


column_stack 


沿 第 0 轴 连 接 数 组 
按 列 连接 多 个 一 维 数组 
重新 设置 轴 的 顺序 


concatenate0 是 连接 多 个 数组 的 最 基本 的 函数 ， 其 他 函数 都 是 它 的 快捷 版 本 。 它 的 第 一 个 参 
数 是 包含 多 个 数组 的 序列 ， 它 将 沿 着 axis 参数 指定 的 轴 ( 默 认为 第 0 轴 ) 连 接 数 组 。 所 有 这 些 数 


组 的 形状 除了 第 axis 轴 之 外 都 相同 。 


vstack0 沿 着 第 0 轴 连 接 数 组 ， 当 被 连接 的 数组 是 长 度 为 N 的 一 维 数组 时 ， 将 其 形状 改 为 


(1, N)。 


hstack0 沿 着 第 1 轴 连 接 数组 。 当 所 有 数组 都 是 一 维 时 ， 沿 着 第 0 轴 连 接 数 组 ， 因 此 结果 数 


组 仍然 为 一 维 的 。 


column_stack0 和 hstack0 类 似 ， 沿 着 第 1 轴 连 接 数 组 ， 但 是 当 数 组 为 一 维 时 ， 将 其 形状 改 为 


(N, D， 经 常用 于 按 列 连接 多 个 一 维 数组 。 


a = np.arange(3) 
b = np.arange(16，13) 


v= np.vstack((a, b)) 
h = np.hstack((a, b)) 
c = np.column_stack((a, b)) 


[ENO 1 2 1200 1 210 .11 12]1E0 10] 
[2 2] | i ee 
[ 2, 12]] 


此 外 ，c] 对 象 也 可 以 用 于 按 列 连接 数组 : 


np.c_[a, b, a+b] 

array([[ 6，16，16]， 
Dole a 
[ 2, 12, 14]]) 


split0 和 array_split0 的 用 法 基本 相同 ,将 一 个 数组 沿 着 指定 轴 分 成 多 个 数组 ,可 以 直接 指定 
切 分 轴 上 的 切 分 点 下 标 。 下 面 的 代码 把 随机 数组 a 切 分 为 多 个 数组 ， 保 证 每 个 数组 中 的 元 素 都 
是 升序 排列 的 。 注 意 通 过 difft0 和 nonzero0 获 得 的 下 标 是 每 个 升序 片段 中 最 后 一 个 元 素 的 下 标 ， 
而 切 分 点 为 每 个 片段 第 一 个 元 素 的 下 标 ， 因 此 需要 +1。 


np.random. seed(42) 
a = np.random.randint(6, 106, 12) 
idx = np.nonzero(np.diff(a) < 6)[6] + 1 
a idx np.split(a, idx) 
[Or TM 90 ly 3 6 90710] [torroy(lelds 
| array([3，7])， 

array([4，6，9])， 

array([2，6，7])， 

array([4])， 

array([3，7])] 


当 第 二 个 参数 为 整数 时 ， 表 示 分 组 个 数 。splitO 只 能 平均 分 组 ， 而 array_split0 能 尽量 平均 
分 组 : 


np.split(a，6) np.array_split(a, 5) 


[array([6, 3]), [array([6, 3, 7]), 
array([7, 4]), array([4, 6, 9]), 
array([6, 9]), array([2，6])， 
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array([2, 6]), array([7，4])， 
array([7, 4]), array([3，7])] 
array([3, 7])] 


transpose0 和 swapaxes0 用 于 修改 轴 的 顺序 ， 它 们 得 到 的 是 原 数组 的 视图 。transpose0 通 过 其 
第 二 个 参数 axes 指定 轴 的 顺序 ， 默 认 时 表示 将 整个 形状 翻转 。 而 swapaxes0 通 过 两 个 整数 指定 
调换 顺序 的 轴 。 在 下 面 的 例子 中 : 

e ”transpose0 的 结果 数组 的 形状 为 G,4,2,5)， 它 们 分 别 位 于 原 数 组 形状 (2, 3, 4, 5) 的 (1, 2, 0, 3) 


下 标 位 置 处 。 
。 swapaxes0 的 结果 数组 的 形状 为 2, 4, 3, 5))， 它 是 通过 将 原 数组 形状 的 中 间 两 个 轴 对 调 得 
到 的 。 


a = np.random.randint(6@, 10, (2, 3, 4, 5)) 

print u" 原 数组 形状 :"，a.shape 

print u"transpose:", np.transpose(a, (1, 2, 6, 3)).shape 
print u"swapaxes:", np.swapaxes(a, 1, 2).shape 

原 数 组 形状 : (2，3，4，5) 

transpose: (3, 4, 2, 5) 

swapaxes: (2, 4, 3, 5) 


下 面 以 将 多 个 缩 略 图 拼 成 一 幅 大 图 为 例 ， 帮 助 读者 理解 多 维 数组 中 变换 轴 的 顺序 。 在 
data/thumbnails 目录 之 下 有 30 个 160x90 像素 的 PNG 图 标 图 像 ， 需要 将 这 些 图 像 拼 成 一 幅 6 行 5 
列 的 大 图 像 。 首 先 调用 glob 和 cv2 模块 中 的 函数 ， 获 得 一 个 数组 列表 imgs。cv2 库 将 在 第 9 曹 
介绍 OpenCV 时 进行 详细 介绍 。 
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import glob 
import numpy as np 
from cv2 import imread, imwrite 


imgs = [] 
for fn in glob.glob("thumbnails/*.png"): 
imgs.append(imread(fn, -1)) 


print imgs[8].shape 
(98，166，3) 


imgs 中 每 个 元 素 都 是 一 个 多 维 数组 ， 它 的 形状 为 (90, 160, 3)， 其 中 第 0 轴 的 长 度 为 图 像 的 
度 ， 第 1 轴 的 长 度 为 图 像 的 宽度 ， 第 2 轴 为 图 像 的 通道 数 ， 彩 色 图 像 包含 红 、 绿 、 蓝 三 个 通 
道 ， 所 以 第 2 轴 的 长 度 为 3。 
调用 concatenate0 将 这 些 数组 沿 第 0 轴 拼 成 一 个 大 数组 ， 结 果 img 是 一 个 宽 为 160 像素 、 高 


型 
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为 2700 像素 的 图 像 : 


img = np.concatenate(imgs，6) 
img.shape 
(2768，166，3) 
由 于 我 们 的 最 终 目标 是 把 它们 拼 成 一 幅 如 图 2-9( 左 ) 所 示 的 6 行 5 列 的 缩 略 图 ， 因 此 需要 
将 img 的 第 0 轴 分 解 为 3 个 轴 , 长 度 分 别 为 (6, 5,90)。 下 面 使 用 reshape0 完 成 这 个 工作 。 使 用 imgl[i， 
中 可 以 获取 第 i 行 、 第 j 列 上 的 图 像 : 


图 2-9 使 用 操作 多 维 数组 的 函数 拼接 多 幅 缩 略图 


imgl = img.reshape(6, 5, 90, 160, 3) 
img1[6，1].shape 
(98，166，3) 


根据 目标 图 像 的 大 小 ， 可 以 算出 目标 数组 的 形状 为 (540, 800,3)， 即 (6*90, 5*160,3)， 也 可 以 
把 它 看 作 形 状 为 (6, 90, 5, 160, 3) 的 多 维 数组 。 与 imgl 的 形状 相 比 ， 可 以 看 出 需要 交换 imgl 的 第 
1 轴 和 第 2 轴 。 这 个 操作 可 以 通过 imgl.swapaxes0 或 imgl.transpose0 完 成 。 然 后 再 通过 reshape0 
将 数组 的 形状 改 为 (540, 800, 3)。 

img2 = imgl.swapaxes(1，2).reshape(546，866，3) 
请 读者 思考 下 面 的 img3 会 得 到 怎样 的 图 像 : 


img = np.concatenate(imgs，6) 

img3 = jimg.reshape(5，6，96，166，3) \ 
.transpose(1, 2, 6, 3, 4) \ 
.reshape(546，8686，3) 


下 面 的 程序 将 每 幅 缩 略 图 的 边沿 上 的 两 个 像素 填充 为 白色 ， 效 果 如 图 2-9( 右 ) 所 示 。@ 这 里 
使 用 一 个 形状 与 imgl 的 前 4 个 轴 相 同 的 mask 布尔 数组 ， 该 数组 的 初始 值 为 Tme。@ 通 过 切片 
将 mask 中 除去 边框 的 部 分 设置 为 False。 罩 将 imgl 中 与 mask 为 True 的 对 应 像素 填充 为 白色 。 
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img = np.concatenate(imgs，6) 

jimgl = jimg.reshape(6，5，96，166，3) 

mask = np.ones(imgl.shape[:-1]，dtype=bool) © 
mask[:，:，2:-2，2:-2] = False © 
imgl[mask] = 236 © 
img4 = img1.swapaxes(1, 2).reshape(540, 860, 3) 


2.4.7 ”多项式 函 数 
A 与 本 节 内 容 对 应 的 Notebook 为 : 02-numpy/numpy-450-functions-poly.ipynb。 


多 项 式 函数 是 变量 的 整数 次 窜 与 系数 的 乘积 之 和 ， 可 以 用 下 面 的 数学 公式 表示 : 
f(x) = anxn 十 an_1Xxn-1 十 … 十 azXx2 十 aiX 十 ao 

由 于 多 项 式 函数 只 包含 加 法 和 乘法 运算 ， 因 此 它 很 容易 计算 ， 可 用 于 计算 其 他 数学 函 

近似 值 。 多 项 式 函数 的 应 用 非常 广泛 , 例如 在 嵌入 式 系统 中 经 常会 用 它 计 算 正 弦 、 余 弦 等 函 


在 Numpy 中 ， 多 项 式 函 数 的 系数 可 以 用 一 维 数 组 表示 ,例如 可 以 用 下 面 的 数组 表示 ， 其 ! 
是 最 高 次 的 系数 ，a[-1] 是 常数 项 ， 注 意 x 的 系数 为 0。 


a = np.array([1.6, 8, -2, 1]) 


数 的 
1al0] 


我 们 可 以 用 poly1d0 将 系数 转换 为 polyld( 一 元 多 项 式 ) 对 象 ， 此 对 象 可 以 像 函数 一 样 调用 ， 


它 返 回 多 项 式 函 数 的 值 : 


p = np.poly1ld(a) 

print type(p) 

p(np.linspace(6，1，5)) 

<class “numpy.lib.polynomial.poly1d "> 

array([ 1. ， 8.515625, 6.125 “，-6.678125， 8. 1 


对 polyld 对 象 进行 加 减 乘 除 运 算 相 当 于 对 相应 的 多 项 式 函 数 进行 计算 。 例 如 ; 
p+ [-2，1] # 和 p+ np.polyld([-2，1]) 相同 


oDAdtl 62574223) 


p * p # 两 个 3 次 多 项 式 相 乘 得 到 一 个 6 次 多 项 式 
BOIVId( Tu I OA a A 


p / [1，1] # 除法 返回 两 个 多 项 式 ， 分 别 为 商 式 和 余 式 
(polyld([ 1.，-1.，-1.])，polyld([ 2.])) 


子 9 


于 多 项 式 的 除法 不 一 定 能 正好 整除 ,因此 它 返 回 除法 所 得 到 的 商 式 和 余 式 。 在 上 面 的 例 


Ph， 商 式 为 x? 一 x 一 1， 余 式 为 2。 因 此 将 商 式 和 被 除 式 相 乘 ， 再 加 上 余 式 就 等 于 原来 的 p: 


方 
的 


p == np.polyld([ 1., -1., -1.]) * [1,1] + 2 


True 


多 项 式 对 象 的 deriv0 和 integ0 方 法 分 别 计算 多 项 式 函 数 的 微分 和 积分 : 


p.deriv() 
polyld([ 3.， 8., -2.]) 


p.integ() 
po ES 


p.integ().deriv() == p 
True 
多 项 式 函 数 的 根 可 以 使 用 roots0 函 数 计 算 : 


r= np.roots(p) 
到 
array([-1.61863399， 1. ， 6.61863399]) 


P(r) # 将 根 带 入 多 项 式 计算 ， 得 到 的 值 近似 为 8 


array([ 2.33146835e-15, 1.33226763e-15, 1.11622362e-16]) 


而 poly0 函 数 可 以 将 根 转换 回 多 项 式 的 系数 : 


np.poly(r) 


array([ “1.66666666e+66， -1.66533454e-15， -2.66666666e+686， 


1.66666666et+66] ) 


除了 使 用 多 项 式 对 象 之 外 ， 也 可 以 直接 使 用 NumPy 提供 的 多 项 式 函 数 对 表示 多 项 式 系数 
的 数组 进行 运算 。 可 以 在 IPython 中 使 用 自动 补 全 查看 函数 名 : 


>>> np.poly # 按 Tab 键 


np.poly np.polyadd np.polydiv np.polyint np.polysub 
np.polyld np.polyder np.polyfit np.polymul np.polyval 


F 行 拟 合 ， 找 到 与 这 组 数据 的 误差 平 


和 最 小 的 多 项 式 的 系数 。 下 面 的 程序 用 它 计 算 -n/2 ~ T/2 


系数 : 


中 的 polyfit0 函 数 可 以 对 一 组 数据 使 用 多 项 式 函 数 进 


区 间 与 sinC9 函 数 最 接近 的 多 项 式 


请 举 峙 疡 册 庆 - 人 dunN 
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np.set_printoptions(suppress=True, precision=4) 


x = np.linspace(-np.pi / 2, np.pi / 2，1666) © 
y= np.sin(x) ©@ 


for deg in [3, 5, 7]: 
a = np.polyfit(x, y, deg) © 
error = np.abs(np.polyval(a, x) - y) @ 
print "degree {}: {}".format(deg, a) 
print “max error of order %d:" % deg, np.max(error) 


degree 3: [-6.145 -6. 8.9887 8. ] 

max error of order 3: 8.66894699376767 

degree 5: [ 8.6076 -6. -8.1658 -6. 8.9998 -0. | 

max error of order 5: 6.666157468614187 

degree 7: [-8.6662 -0. 8.6683 9. -9.1667 -6. es @. | 


max error of order 7: 1.52682558663e-66 


@ 首 先 通过 linspace0 将 -TV2 ~ TV/2 区 间 等 分 为 (1000-D 等 份 。 思 计算 拟 合 目标 函数 sin(x) 
的 值 。@ 将 表示 目标 函数 的 数组 传递 给 polyfit0 进 行 拟 合 ， 第 三 个 参数 deg 为 多 项 式 函 数 的 最 高 
阶 数 。polyfit0 所 得 到 的 多 项 式 和 目标 函数 在 给 定 的 1000 个 点 之 间 的 误差 最 小 ，polyfit0 返 回 多 
项 式 的 系数 数组 。@ 使 用 polyval0 计 算 多 项 式 函数 的 值 ， 并 计算 与 目标 函数 的 差 的 绝对 值 。 

从 程序 的 输出 可 以 看 到 ， 由 于 正弦 函数 是 一 个 奇 函 数 ， 因 此 拟 合 的 多 项 式 系数 中 偶数 次 项 
的 系数 接近 于 0。 图 2-10 显 示 了 各 阶 多 项 式 与 正弦 函数 之 间 的 误差 ,请 注意 图 中 Y 轴 为 对 数 坐 标 。 


请 举 贿 痛 启 这 -人 dunN 


一 3 阶 多 项 式 的 误差 ”一 ”5 阶 多 项 式 的 误差 。 一 7 阶 多 项 式 的 误差 


-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 


图 2-10 各 阶 多 项 式 近似 正弦 函数 的 误差 
2.4.8 ”多项式 函数 类 


numpy.polynomial 模块 中 提供 了 更 丰富 的 多 项 式 函数 类 ， 例 如 Polynomial、Chebyshev、 
Legendre 等 。 它 们 和 前 面 介绍 的 numpy.polyld 相反 ， 和 多项式 各 项 的 系数 按照 容 从 小 到 大 的 顺序 
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排列 ， 下 面 使 用 Polynomial 类 表示 多 项 式 x? 一 2x + 1， 并 计算 x = 2 处 的 值 : 


from numpy.polynomial import Polynomial, Chebyshev 
p = Polynomial([1, -2, 6, 1]) 

print p(2.6) 

5.6 


Polynomial 对 象 提供 了 众多 的 方法 对 多 项 式 进 行 操作 ， 例 如 deriv0 计 算 导 函 数 : 


p.deriv() 
polyoniol([l=20% O55 3 [elo Tels [es Wel) 


切 比 雪夫 多 项 式 是 一 个 正 交 多 项 式 序列 Ti(x), 一 个 n 次 多 项 式 可 以 表示 为 多 个 切 比 雪夫 多 
项 式 的 加 权 和 。 在 NumPy 中 ， 使 用 Chebyshev 类 表示 由 切 比 雪夫 多 项 式 组 成 的 多 项 式 p(x): 


pW) = > oT 
i130 
Ti(x) 多 项 式 可 以 通过 Chebyshev.basis(i) 获 得 ， 图 2-11 显示 了 0 到 4 次 切 比 雪夫 多 项 式 。 通 
过 多 项 式 类 的 convert0 方 法 可 以 在 不 同类 型 的 多 项 式 之 间 相互 转换 ， 转 换 的 目标 类 型 由 kind 参 
数 指定 。 例 如 下 面 将 Ty (x) 转换 成 Polynomial 类 。 由 结果 可 知 : T(x) = 1 一 8x? + 8x4。 


Chebyshev.basis(4).convert(kind=Polynomial) 
Polynomiald[ 1 ‘065 -8 Os "82s Lela ‘dle [ls Ly 


图 2-11 0 到 4 次 切 比 雪 夫 多 项 式 


切 比 雪夫 多 项 式 的 根 被 称 为 切 比 雪夫 节点 , 可 以 用 于 多 项 式 插值 。 相 应 的 插值 多 项 式 能 最 


1 


大 限度 地 降低 龙 格 现象 ， 并 且 提 供 多 项 式 在 连续 函数 的 最 佳 一 臻 晕 近 。 下 面 以 f(x) = 元 25 荆 国 


数 插值 为 例 演示 切 比 雪夫 节点 与 龙 格 现象 。 


请 举 峙 痛 放 这 -人 dunN 
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请 举 峙 痛 记 这 -人 dunN 


@ 在 [一 43 区间 上 等 距离 取 n 个 取样 点 。@ 使 用 n 阶 切 比 雪夫 多 项 式 的 根 作为 取样 点 。@ 
使 用 两 种 取样 点 分 别 对 fg 进行 多 项 式 插值 ， 即 计算 一 个 多 项 式 经 过 所 有 的 插值 点 。 图 2-12 显 
示 了 两 种 插值 点 所 得 到 的 插值 多 项 式 ， 由 左 图 可 知 等 距离 插值 多 项 式 在 两 端 有 非常 大 的 振荡 ， 
这 种 现象 被 称 为 龙 格 现象 ，n 越 大 振荡 也 越 大 ， 而 右 图 采用 切 比 雪夫 节点 作为 插值 点 ， 插 值 多 
项 式 的 振荡 明显 减 小 ， 并 且 n 越 大 振荡 越 小 。 


插值 与 拟 合 
所 谓 多 项 式 插值 就 是 找到 一 个 多 项 式 经 过 所 有 的 插值 点 。 一 个 n 阶 多 项 式 有 n+l 个 系数 ， 
因此 可 以 通过 解 方程 求解 经 过 ntl 个 插值 点 的 n 阶 多 项 式 的 系数 . fit0 方 法 虽然 计算 与 目标 点 拟 


合 的 多 项 式 系 数 ， 但 是 当 使 用 n 阶 多 项 式 拟 合 n+l 的 目标 点 时 ， 多 项 式 将 经 过 所 有 目标 点 ， 因 
此 其 结果 与 多 项 式 插值 相同 。 
def f(x): 


return 1.6 / ( 1 + 25 * x**2) 


n = 11 

xl = np.linspace(-1, 1, n) © 

x2 = Chebyshev.basis(n).roots() @ 
xd = np.linspace(-1, 1, 280) 


c1 = Chebyshev.fit(x1, f(x1), n - 1, domain=[-1, 1]) © 
c2 = Chebyshev.fit(x2, f(x2), n - 1, domain=[-1, 1]) 


print u" 插 值 多 项 式 的 最 大 误差 :"， 

print u" 等 距离 取样 点 : "，abs(c1(xd) - f(xd)).max()， 

print u" 切 比 雪夫 节点 : "，abs(c2(xd) - f(xd)).max() 

插值 多 项 式 的 最 大 误差 .等 距离 取样 点 。 1.91556933829 切 比 雪夫 节点 : 8.189149825814 


图 2-12 等 距离 插值 点 ( 左 )、 切 比 雪 夫 插 值 点 ( 右 ) 


在 使 用 多 项 式 有 逼近 函数 时 ， 使 用 切 比 雪夫 多 项 式 进行 插值 的 误差 比 一 般 多 项 式 要 小 许多 。 
在 下 面 的 例子 中 ,对 g(x) 在 100 个 切 比 雪夫 节点 之 上 分 别 使 用 Polynomial 和 Chebyshev 进行 插值 ， 
结果 如 图 2-13 所 示 。 在 使 用 Polynomialfit0 插 值 时 ， 产 生 了 RankWarning: The fit may be poorly 
conditioned 警告 ， 因 此 其 结果 多 项 式 未 能 经 过 所 有 插值 点 。 


def g(x): 
ms 
return np.sin(x**2) + np.sin(x)**2 


n = 166 
x = Chebyshev.basis(n).roots() 
xd = np.linspace(-1，1，1666) 


pP_g = Polynomial.fit(x, g(x), n - 1, domain=[-1, 1]) 
cg = Chebyshev.fit(x, g(x), n - 1, domain=[-1, 1]) 


print “Max Polynomial Error:", abs(g(xd) - p_g(xd)).max() 
print "Max Chebyshev Error:", abs(g(xd) - c_g(xd)).max() 
Max Polynomial Error: 1.195686558744 

Max Chebyshev Error: 6.47575726376e-69 


9(7) 
Chebyshev 插值 
olynomial 插 值 


4 


1.0 -05 0.0 0.5 1.0 


图 2-13 Chebyshev 插值 与 Polynomial 插值 比较 
trim0 方 法 可 以 降低 多 项 式 的 次 数 ， 将 尾部 绝对 值 小 于 参数 tol 的 高 次 系数 截断 。 下 面 使 用 


tim0 方 法 获取 c 中 前 68 个 系数 , 得 到 一 个 新 的 Chebyshev 对 象 c_ timed, 其 最 大 误差 上 升 到 0.09 
左右 。 


c_trimed = C_g.trim(tol=6.65) 
print “degree:"，c_trimed.degree() 
print "error:", abs(g(xd) - c_trimed(xd)).max() 


话 料 幅 念 诸 落 -AdwnN 
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degree: 68 
error: 8.6912694835458 


下 面 用 同样 的 方法 对 函数 ho 进行 19 阶 的 切 比 雪夫 多 项 式 插值 ， 得 到 插值 多 项 式 c_h: 


def h(x): 
XD 二- 
return np.exp(-x**2 / 16) 


n= 26 
X = Chebyshev.basis(n).roots() 
ch = Chebyshev.fit(x, h(x), n - 1, domain=[-1, 1]) 


print “Max Chebyshev Error:", abs(h(xd) - c_h(xd)).max() 
Max Chebyshev Error: 1.66544267266e-69 


多 项 式 类 支持 四 则 运算 ,下 面 将 c_g 和 c_h 相 减 得 到 c_diff, 并 调用 其 roots0 计 算 其 所 有 根 。 


然后 找 出 其 中 所 有 的 实数 根 real_roots， 它 们 就 是 g09 与 ho 交点 的 横 坐 标 。 图 2-14 显示 了 这 两 
条 函数 曲线 以 及 通过 插值 多 项 式 计算 的 交点 : 


cdiff=cg-ch 

roots = c_diff.roots() 

real_roots = roots[roots.imag == 6].real 
print np.allclose(c_diff(real_ roots), 08) 


True 


2.0 


L 


-1.0 
-1.0 -0.5 0.0 0.5 1.0 


图 2-14 使 用 Chebyshev 插值 计算 两 条 曲线 在 FL 1] 之 间 的 所 有 交点 


切 比 雪夫 多 项 式 在 区 间 [ 一 1,1] 上 为 正 交 多 项 式 ， 因 此 只 有 在 该 区 间 才 能 对 目标 函数 正确 插 
值 。 为 了 对 任何 区 域 的 目标 函数 进行 插值 ， 需 要 对 自 变量 的 区 间 进 行 缩放 和 平移 变换 。 可 以 通 


过 domain 参数 指定 拟 合 点 的 区 间 。 在 下 面 的 例子 中 ， 对 g2(C9 在 区 间 [ 一 10,0] 之 内 使 用 切 比 雪夫 


多 项 式 进行 插值 。@ 为 了 产生 目标 区 间 的 切 比 雪夫 节点 ， 在 通过 basis0 方 法 创建 T,0) 时 ， 通 过 
domain 参数 指定 目标 区 间 。@ 在 调用 fit0 方 法 进行 拟 合 时 ， 通 过 domain 参数 指定 同样 的 区 间 。 


四 最 后 输出 拟 合 得 到 的 c_g2 多 项 式 在 [一 10,0] 中 与 目标 函数 的 最 大 误差 。 


def g2(x): 
return np.sin(x**2) + np.sin(x)**2 


n= 166 
x = Chebyshev.basis(n, domain=[-16, 8]).roots() © 
xd = np.linspace(-196，6，1666) 


Cc_g2 = Chebyshev.fit(x, g2(x), n - 1，domain=[-16，6]) © 


print "Max Chebyshev Error:", abs(g2(xd) - c_g2(xd)).max() © 
Max Chebyshev Error: 6.47574571744e-69 


2.4.9 各 种 乘积 运算 


I 与 本 节 内 容 对 应 的 Notebook 为 : 02-numpy/numpy-460-functions-dot.ipynb。 


本 节 介 绍 的 函数 如 表 2-9 所 示 。 


表 2-9 本 节 要 介绍 的 函数 
要 名 功能 


dot 短 了 乘积 内 和 
| om | wo | ik 


outter 外 积 


矩阵 的 乘积 可 以 使 用 dot0 计 算 。 对 于 二 维 数组 ， 它 计算 的 是 矩阵 乘积 ， 对 于 一 维 数组 ， 它 
计算 的 是 内 积 。 当 需要 将 一 维 数组 当 作 列 矢量 或 行 矢量 进行 矩阵 运算 时 ， 先 将 一 维 数组 转换 为 


- 维 数 组 : 


= np.array([1, 2, 3]) 


是 


a[:，None]  a[None，:] 


轴 上 的 所 有 元 素 与 数组 b 的 倒数 第 二 轴 上 的 所 有 元 素 的 乘积 和 : 


dot(a, b)[i,j,k,m] = sum(a[li,j,:] * b[k,:,m]) 


对 于 多 维 数组 ，dot0 的 通用 计算 公式 如 下 ， 即 结果 数组 中 的 每 个 元 素 都 是 ， 数 组 a 的 最 后 


请 洽 峙 疡 岗 谊 -人 dunN 
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下 面 以 两 个 三 维 数组 的 乘积 演示 dot0 的 计算 结果 。 首 先 创建 两 个 三 维 数组 ,这 两 个 数组 的 


最 后 两 轴 满 足 矩 阵 乘积 的 条 件 : 


a = np.arange(12).reshape(2, 3, 2) 

b = np.arange(12, 24).reshape(2, 2, 3) 
c= np.dot(a, b) 

c.shape 

(2, 3, 2, 3) 


c 是 数组 a 和 b 的 多 个 子 矩 阵 的 乘积 。 我 们 可 以 把 数组 a 看 作 两 个 形状 为 G,2) 的 矩阵 , 而 把 
数组 b 看 作 两 个 形状 为 2.3) 的 矩阵 。a 中 的 两 个 矩阵 分 别 与 b 中 的 两 个 矩阵 进行 矩阵 乘积 ， 就 得 
到 数组 c，c[i, :,j, 是 a 中 第 i 个 矩阵 与 b 中 第 j 个 矩阵 的 乘积 。 


for i, j in np.ndindex(2, 2): 
assert np.alltrue( c[i, :, j, :] == np.dot(a[i], b[j]) ) 


对 于 两 个 一 维 数组 ，inner0 和 dot0 一 样 ， 计 算 两 个 数组 对 应 下 标 元 素 的 乘积 和 。 而 对 于 多 
维 数组 ， 它 计算 的 结果 数组 中 的 每 个 元 素 都 是 : 数组 a 和 b 的 最 后 轴 的 内 积 。 因 此 数组 a 和 b 
的 最 后 轴 的 长 度 必须 相同 : 
inner(a, b)[i,j,k,m] = sum(a[i,j,:]*b[k,m,:]) 
下 面 是 对 inner0 的 演示 : 


a = np.arange(12).reshape(2, 3, 2) 

b = np.arange(12, 24).reshape(2, 3, 2) 
c = np.inner(a, b) 

c.shape 

(2, 3, 2, 3) 


ori ds kd dnp ndndxt 3 2 3 
assert c[i, j, k, 1] == np.inner(a[i, j], b[k, 1]) 


outer0 只 对 一 维 数组 进行 计算 ， 如 果 传 入 的 是 多 维 数组 ， 则 先 将 此 数组 展 平 为 一 维 数组 之 
后 再 进行 运算 。 它 计算 列 向 量 和 行 向 量 的 矩阵 乘积 : 


a = np.array([1, 2, 3]) 
b = np.array([4, 5, 6, 7]) 
np.outer(a, b) np.dot(a[:, None], b[None, :]) 


L453 6 L450 7] 
e108 12 1410 [e1012 141 
[12 1 18 T1112 1 18 2 


tensordot0 将 两 个 多 维 数 组 a 和 b 指定 轴 上 的 对 应 元 素 相 乘 并 求 和 ， 它 是 最 一 般 化 的 乘积 运 


算 函 数 。 下 面 通过 一 些 例子 逐步 介绍 其 用 法 。 


下 面 计算 两 个 矩阵 的 乘积 ，@axes 参数 有 两 个 元 


素 ， 第 一 个 元 素 表示 a 中 的 轴 ， 第 二 个 元 素 表示 b 中 的 轴 ， 这 两 个 轴 上 对 应 的 元 素 相 乘 之 后 求 


的 后 axes 个 轴 和 b 中 的 前 axes 个 轴 进 行 乘积 和 运 


和 。@axes 也 可 以 是 一 个 整数 ， 它 表示 把 ad 
算 ， 而 对 于 乘积 和 之 外 的 轴 则 保持 不 变 。 


a = np.random.rand(3, 4) 
b = np.random.rand(4, 5) 


cl = np.tensordot(a, b, axes=[[1], [8]] 
C2 = np.tensordot(a, b, axes=1) 

c3 = np.dot(a, b) 

assert np.allclose(c1, c3) 

assert np.allclose(c2, c3) 


) 9 
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对 于 多 维 数组 的 dot0 乘 积 , 可 以 用 tensordot(a, b, axes=[[-1], [-2]]) 表 示 ， 即 将 a 的 最 后 轴 和 b 


中 的 倒数 第 三 轴 求 乘积 和 |: 


a = np.arange(12).reshape(2, 3, 2) 
b = np.arange(12, 24).reshape(2, 2, 3) 


c1 = np.tensordot(a, b, axes=[[-1], [-2]]) 


c2 = np.dot(a, b) 
assert np.alltrue(c1 == c2) 


在 下 面 的 例子 中 ,将 a 的 第 1、 第 2 轴 :# 
都 是 按照 如 下 表达 式 计算 的 : 


c[i, j, k, 1] = np.sum(a[i, :, :, j] * 


注意 


a = np.random.rand(4, 5, 6, 7) 
b = np.random.rand(6, 5, 2, 3) 
c = np.tensordot(a, b, axes=[[1, 2], [ 


for i, j, k, 1 in np.ndindex(4, 7, 2, 
assert np.allclose(c[i, j, k, 1], 


c.shape 


(4, 7, 2, 3) 


jb 的 第 1、 第 0 轴 求 乘积 和 ， 因 此 c 中 的 每 个 元 素 


[5 


于 b 对 应 的 axes 中 的 轴 是 倒序 的 ， 因 此 需要 做 转 置 操作 。 


1, 8]]) 


3 


RS 
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2.4.10 广义 ufunc 函数 


A 与 本 节 内 容 对 应 的 Notebook 为 : 02-numpy/numpy-470-gufuncs.ipynb。 


从 Numpy 1.8 开始 正式 支持 广义 ufunc 函数 (generalized ufunc， 以 下 简称 gufunc)。gufunc 是 
对 ufunc 的 推广 , 所 谓 ufunc 就 是 将 对 单个 数值 的 运算 通过 广播 运用 到 整个 数组 中 的 所 有 元 素 之 
上 ， 而 gufunc 则 是 将 对 单个 矩阵 的 运算 通过 广播 运用 到 整个 数组 之 上 。 例 如 numpyJinalg,inv0 
是 求 逆 和 矩阵 的 gufunc 函数 。 在 其 文档 中 描述 其 输入 输出 数组 的 形状 如 下 : 


ainv = inv(a) 

is MM 

ainv : (..., M, M) 

输入 数组 a 的 形状 中 带 有 “...”， 它 表示 0 到 任意 多 个 轴 。 当 它 为 空 时 ， 就 是 对 单个 矩阵 
求 道 ，gufunc 函数 将 对 这 些 轴 进行 广播 运算 。 最 后 两 个 轴 的 长 度 为 M， 表 示 任 意 大 小 的 方形 
矩阵 。 


NumPy 中 的 线性 代数 模块 linalg 中 提供 的 函数 大 都 为 广义 ufunc 函数 。 在 SciPy 中 也 提 
请 。 供 了 线性 代数 模块 linalg， 但 其 中 的 函数 都 是 一 般 函 数 ， 只 能 对 单个 矩阵 进行 计算 。 关 
于 线性 代数 函数 库 的 用 法 将 在 下 一 章 进 行 详细 介绍 。 

在 输出 数组 ainv 中 ， 由 于 逆 矩 阵 的 形状 与 原 矩 阵 相 同 ， 因 此 ainv 的 最 后 两 轴 的 形状 也 是 
(MM)。“.…” 表 示 广 播 运 算 之 后 的 形状 ， 而 由 于 矩阵 求 道具 对 一 个 矩阵 进行 运算 ， 因 此 “.…” 
的 形状 和 a 中 的 “...” 的 形状 相同 。 

在 下 面 的 例子 中 ，a 的 形状 为 (10,20,3,3)， 其 中 (10,20) 与 “...” 对 应 ，3 与 M 对 应 。 而 inv0 
通过 广播 运算 对 10X20 个 形状 为 G, 3) 的 矩阵 求 逆 , 得 到 的 结果 ainv 的 形状 与 4 相同 ,也 是 (10, 20， 
3,3)。 

a = np.random.rand(16，26，3，3) 

ainv = np.linalg.inv(a) 

ainv.shape 

(10, 20, 3, 3) 


下 面 的 程序 验证 第 i 行 、 第 j 列 的 窍 阵 及 其 逆 和 矩阵 的 乘积 ， 应 该 近似 等 于 3 阶 单位 矩阵 ; 


ce 
np.allclose(np.dot(a[i, j], ainv[i, j]), np.eye(3)) 


True 


numpy.linalg.det0 计 算 矩 阵 的 行列 式 ， 它 也 是 一 个 gufunc 函数 。 它 的 输入 输出 的 形状 为 : 


adet = det(a) 
se 
adet : (...) 


于 矩阵 的 行列 式 是 将 一 个 M x M 的 矩阵 映射 到 一 个 标量 ， 因 此 输出 adet 的 形状 中 只 包含 


oo 9 
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adet = np.linalg.det(a) 
adet .shape 
(10, 20) 


下 面 以 多 个 二 次 函数 的 数据 拟 合 为 例 ， 介 绍 如 何 使 用 gufunc 函数 提高 运算 效率 。 首先 通过 
随机 数 函数 创建 测试 用 的 数据 x 和 y, 这 两 个 数组 的 形状 都 为 n,10)。 其 中 的 每 行 数据 (x 自 和 y[) 
构成 一 个 曲线 拟 合 的 数据 集 ， 它 们 的 关系 为 : y = Bs + Bix + Box?。 现 在 需要 计算 每 对 数据 所 
对 应 的 系数 B。 


n = 16666 

np.random. seed(@) 

beta = np.random.rand(n, 3) 

x = np.random.rand(n，16) 

y = beta[:,2, None] + x*beta[:, 1, None] + x**2*beta[:, 8, None] 


显然 使 用 前 面 介绍 过 的 numpy.polyfit0 可 以 很 方便 地 完成 这 个 任务 ， 下 面 的 程序 输出 第 42 


组 的 实际 系数 以 及 拟 合 的 结果 : 


print beta[42] 

print np.polyfit(x[42], y[42], 2) 

[ 8.6191932 “6.36157482 08.668617354] 
[ 8.6191932 ”6.36157482 8.668617354] 


只 需要 循环 调用 nm 次 numpypolyfit0 即 可 得 到 所 需 的 结果 ， 但 是 它 的 运算 速度 有 些 慢 ， 
%time beta2 = np.vstack([np.polyfit(x[i], y[i], 2) for i in range(n)]) 


Wall time: 1.52 s 


np.allclose(beta, beta2) 


True 


在 numpy.polyfit0 内 部 实际 上 是 通过 调用 最 小 二 乘法 函数 numpy.linalg.lstsq0 来 实现 多 项 式 


拟 合 的 ， 我 们 也 可 以 直接 调用 Istsq0 计 算 系数 : 


xx = np.column_stack(([x[42]**2, x[42], np.ones_like(x[42])])) 
print np.linalg.lstsq(xx, y[42])[8] 
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[ 8.6191932 ”8.36157482 68.66817354] 


但 遗憾 的 是 ， 目 前 numpyJinalgjlstsq0 还 不 是 gufunc 函数 ， 因 此 无 法 直接 使 用 它 计 算 所 有 数 
据 组 的 拟 合 系数 。 然 而 numpyJinalg 中 对 线性 方程 组 求解 的 函数 solve0 是 一 个 gufunc 函数 。 并 
且 根 据 最 小 二 乘法 的 公式 : 


B= CX) XTy 

只 需要 求 出 XTX 和 XTy， 就 可 以 使 用 numpy.linalg.solve0 计 算出 和 = solve(XTX,XTy)。 为 了 
实现 这 个 运算 ， 还 需要 计算 矩阵 乘积 的 gufunc 函数 。 然 而 dot0 并 不 是 一 个 gufunc 函数 ， 因 为 它 
不 遵循 广播 规则 .NumPy 中 目前 还 没有 正式 提供 计算 算 阵 乘积 的 gufunc 函数 ,不 过 在 umath_tests 
模块 中 提供 了 一 个 测试 用 的 函数 : matrix_multiply0。 下 面 的 程序 使 用 它 和 solve0 实 现 高 速 多 项 
式 拟 合 运算 ， 它 所 需 的 时 间 约 为 polyfit0 版 本 的 五 十 分 之 一 。 


%%time 
X = np.dstack([x**2, x, np.ones_like(x)]) 
Xt = X.swapaxes(-1, -2) 


import numpy.core.umath_tests as umath 
A = umath.matrix_multiply(Xt, Xx) 
b = umath.matrix_multiply(Xt, y[..., None]).squeeze() 


beta3 = np.linalg.solve(A, b) 


print np.allclose(beta3, beta2) 
True 
Wall time: 36 ms 


在 上 面 的 运算 中 ，X 的 形状 为 (10000, 10, 3)，Xt 的 形状 为 (10000, 3, 10)。matrix_multiply0 的 
各 个 参数 和 返回 值 的 形状 如 下 : 


调用 matrix_multiply0 对 Xt 和 X 中 的 每 对 矩阵 进行 乘积 运算 ,得 到 的 结果 A 的 形状 为 (10000， 
3,3)。 而 为 了 计算 XTy, 需要 通过 y[..., None] 将 y 变 成 形状 为 (10000,10,D]) 的 数组 ,matrix_multiply(Xt, 
y[… None]) 所 得 到 的 形状 为 (10000, 3, 1)。 调 用 其 squeeze0， 删 除 长 度 为 1 的 轴 。 这 样 b 的 形状 为 
(10000, 3)。 

solve0 的 参数 b 支 持 两 种 形状 ， 其 中 第 一 种 情况 的 形状 如 下 : 


x = solve(a, b) 
a:(..., M, M) 


bx Cs M) 
en 


因此 solve0 的 返回 值 beta3 的 形状 为 (10000, 3)。 

前 面 的 例子 中 ， 使 用 的 都 是 最 简单 的 广播 规则 。 实 际 上 gufunc 函数 支持 所 有 的 ufunc 函数 
的 广播 规则 。 因 此 形状 分 别 为 (a, m,n) 和 (b, 1,n,k) 的 两 个 数组 通过 matrix_multiply0 乘 积 之 后 得 到 
的 数组 的 形状 为 (b, a m, k)。 下 面 看 一 个 使 用 gufunc 函数 广播 运算 的 例子 : 


在 二 维 平面 上 的 旋转 矩阵 为 : 
_ [cos6 一 sinb 
MO)s [ne cos6 
它 能 将 平面 上 的 某 点 的 坐标 围绕 原点 旋转 8。 对 于 形状 为 N, 2) 的 矩阵 P， 可 以 表示 平面 上 
NN 个 点 的 坐标 。 而 矩阵 乘积 得 到 的 则 是 将 这 N 个 点 绕 坐 标 原点 旋转 6 之 后 的 坐标 。 下 面 的 程序 
使 用 matrix_multiply0 将 3 条 曲线 上 的 坐标 点 分 别 旋转 4 个 角度 ， 得 到 12 条 曲线 。 


调用 matrix_multiply0 时 两 个 参数 数组 的 形状 分 别 为 3, 100, 2) 和 (4, 1, 2, 2)， 其 中 广播 轴 的 形 
状 分 别 为 G,) 和 (4, DD)， 运 算 轴 的 形状 分 别 为 (100, 2 和 (2, 2)。 广 播 轴 进 行 广 播 之 后 的 形状 为 (4, 3)， 
而 运算 轴 进 行 矩 阵 乘积 之 后 的 形状 为 4100,2)， 因 此 结果 rpoints 的 形状 为 (4, 3, 100, 2)。 
M = np.array([[[np.cos(t)，-np.sin(t)]， 


[np.sin(t)，np.cos(t)]] 
for t in np.linspace(6，np.pi，4，endpoint=False)]) 


x = np.linspace(-1，1，166) 
points = np.array((np.c_[x, x], np.c_[x, x**3], np.c_[x**3, x])) 
rpoints = umath.matrix multiply(points, M[:, None, ...]) 


print points.shape, M.shape, rpoints.shape 
(3, 100, 2) (4, 2, 2) (4, 3, 100, 2) 


将 这 12 条 曲线 绘制 成 图 表 之 后 的 效果 如 图 2-15 所 示 。 


图 2-15 使 用 矩阵 乘积 的 广播 运算 将 3 条 曲线 分 别 旋转 4 个 角度 
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2.5 实用 技巧 


A 与 本 节 内 容 对 应 的 Notebook 为 : 02-numpy/numpy-900-tips.ipynb。 


在 编写 应 用 程序 时 , 可 能 经 常会 与 其 他 的 程序 库 交 换 大 量 数据 。 本 节 介 绍 一 些 通过 NumPy 
数组 共享 内 存 的 方法 。 


2.5.1 ”动态 数组 


NumPy 的 数组 对 象 不 能 像 列表 一 样 动态 地 改变 其 大 小 ， 在 做 数据 采集 的 时 候 ， 需 要 频繁 
地 往 数组 中 添加 数据 时 很 不 方便 。 而 Python 标准 库 中 的 array 数组 提供 了 动态 分 配 内 存 的 功能 ， 
而 且 它 和 Numpy 数 组 一 样 直接 将 数值 的 二 进 制 数据 保存 在 一 块 内 存 中 ,因此 我 们 可 以 先 用 array 
数组 收集 数据 ， 然 后 通过 npfrombuffer0 将 array 数组 的 数据 内 存 直接 转换 为 NumPy 数组 。 下 而 
是 一 个 例子 : 


import numpy as np 

from array import array 

a = array("d"，[1,2,3,4]) ”# 创建 一 个 array 数组 

# 通过 np.frombuffer() 创 建 一 个 和 a 共享 内 存 的 NumPy 数组 
na = np.frombuffer(a，dtype=np.float) 


print a 
print na 
na[1] = 26 # 修改 NumPy 数组 中 下 标 为 1 的 元 素 
print a 


array('d', [1.6, 2.0, 3.0, 4.0]) 
Ee | 
array('d', [1.0, 20.0, 3.0, 4.0]) 


array 数组 只 支持 一 维 ， 如 果 我 们 需要 采集 多 个 通道 的 数据 ， 可 以 将 这 些 数据 依次 添加 进 
array 数组 ， 然 后 通过 reshape0 方 法 将 np.frombuffer0 所 创建 的 NumPy 数组 改 为 二 维 数组 。 在 下 
面 的 例子 中 ， 我 们 通过 array 数组 buf 采集 两 个 通道 的 数据 ， 数 据 采 集 完毕 之 后 ， 通 过 
np.frombuffer0 将 其 转换 为 NumPy 数组 ， 并 通过 reshape0 将 其 形状 改 为 二 维 数组 : 


import math 

buf = array("d") 

for i in range(5): 
buf.append(math. sin(i*8.1)) 
buf.append(math.cos(i*8.1)) 


data = np.frombuffer(buf, dtype=np.float).reshape(-1, 2) 
print data 


[[ e. 2 ] 
[ 8.69983342 ”8.99566417] 
[ 8.19866933 ”8.98886658] 
[ 8.29552621 8.95533649] 
[ 8.38941834 8.92106099]] 


下 面 是 Python 中 实现 array 对 象 动 态 添加 元 素 的 算法 : 
e array 对 象 拥有 一 块 用 于 保存 数据 的 内 存 ， 其 长 度 通常 比 数组 中 的 所 有 数据 的 字 节 数 
要 长 。 
e 当 往 amay 中 添加 数据 时 ， 如 果 数 据 内 存 中 还 有 空余 位 置 ， 则 直接 写 入 空余 位 置 。 
e 当 数 据 内 存 中 无 空余 位 置 时 ， 则 重新 分 配 一 块 更 大 的 数据 内 存 ， 并 将 当前 的 数据 都 复 
制 到 这 块 新 的 数据 内 存 中 ， 而 旧 的 数据 内 存 则 被 释放 掉 。 
根据 上 述 算法 可 知 ， 只 要 往 aray 中 添加 元 素 ， 其 数据 内 存 的 地 址 就 可 能 发 生 改变 。 在 此 
之 前 通过 np.frombufferO 创 建 的 数组 仍然 引用 旧 的 数据 内 存 ， 从 而 成 为 “ 野 指针 ”。 下 面 的 代码 
演示 了 这 个 过 程 。 其 中 amray.buffer info0 获 得 数据 内 存 的 地 址 以 及 其 中 有 效 数据 的 个 数 。 


a = array("d") 

for i in range(10): 
a.append(i) 
if i == 2: 


na = np.frombuffer(a, dtype=float) 
print a.buffer_info(), 
if i == 4: 
print 
(83688512，1) (83688512，2) (83688512，3) (83688512，4) (31531848, 5) 
(31531848, 6) (31531848, 7) (31531848, 8) (34465776，9) (34465776，16) 


由 上 面 的 结果 可 知 ， 当 数组 a 的 长 度 为 5 和 9 时 ,数据 内 存 被 重新 分 配 了 。 而 na 数组 是 在 
a 的 长 度 为 3 时 通过 np.frombuffer0 得 到 的 ,因此 它 的 数据 指针 已 经 成 为 时 指针。ndarray.ctypes.data 
可 以 获得 数组 的 数据 内 存 的 地 址 , 可 以 看 出 na 的 数据 内 存 地 址 仍然 是 a 在 重新 分 配 之 前 的 地 址 ， 
而 na 中 的 数据 也 变 成 了 随机 的 无 效 数据 。 


print na.ctypes.data 

print na 

83688512 

[ 2.11777767e+161 “6.24626631e-685 8.82869697e+199] 


上 面 的 分 析 可 知 , 每 次 动态 数组 的 长 度 改变 时 , 我 们 都 需要 重新 调用 npfrombuffer0 以 创 
建 一 个 新 的 ndarray 数组 对 象 来 访问 其 中 的 数据 。 


当 每 个 通道 的 数据 类 型 不 同时 ， 就 不 能 采用 array.array 对 象 了 。 这 时 可 以 使 用 bytearray 收 
集 数据 。bytearray 是 字 节 数组 ， 因 此 首先 需要 通过 struct 模块 将 Python 的 数值 转换 成 其 字 节 表 
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示 形 式 。 如 果 数 据 来 自 二 进 制 文件 或 硬件 ， 那 么 很 可 能 得 到 的 已 经 是 字 节 数据 了 ， 这 个 步骤 可 
以 省 略 。 下 面 是 使 用 bytearray 进行 数据 采集 的 例子 : 


bytearray 对 象 的 += 运 算 与 其 extend() 方 法 的 功能 相同 , 但 += 的 运行 速度 要 比 extend0 快 许 
姑 ”多 ,读者 可 以 使 用 %timeit 自行 验证 。 


import struct 
buf = bytearray() 
for i in range(5): 
buf += struct.pack("=hdd", i, math.sin(i*0.1), math.cos(i*0.1)) © 


dtype = np.dtype({"names":["id","sin","cos"], "formats":["h", "d", "d"]}) @ 
data = np.frombuffer(buf, dtype=dtype) © 

print data 

[(6，6.6，1.6) (1，6.69983341664682815，6.9956641652786258) 
(2，6.19866933679566122，68.9866665778412416) 
(3，6.2955262666613396，6.955336489125666) 
(4，6.3894183423686565，6.9216669946628851)] 


@ 采 集 三 个 通道 的 数据 ， 其 中 通道 1 是 短 整 型 数 ， 其 类 型 符号 为 “h”,， 通道 2 和 3 为 双 精 
度 浮 点 数 ， 其 类 型 符号 为 “d”。 类 型 格式 字符 串 中 的 “=” 表 示 输 出 的 字 节 数据 不 进行 内 存 对 
齐 。 即 一 条 数据 的 字 节 数 为 218+8=18， 如 果 没 有 “=”， 那 么 一 条 数据 的 字 节 数 为 8+8+8=24。 

@ 定 义 一 个 dtype 对象 来 表示 一 条 数据 的 结构 ，dtype 对 象 默认 不 进行 内 存 对 齐 。 如 果 采 集 
数据 用 的 bytearray 中 的 数据 是 内 存 对 齐 的 话 ， 只 需要 设置 dtype0 的 align 参数 为 True 即 可 。 

人 @ 最 后 通过 np.frombuffer0 将 bytearray 转换 为 NumPy 的 结构 数组 。 然 后 就 可 以 通过 data["id"]、 
data["sin"] 和 | data["cos"] 访 问 这 三 个 通道 的 数据 了 。 


2.5.2 ”和 其 他 对 象 共 享 内 存 


在 前 面 的 章节 中 介绍 过 ， 当 其 他 对 象 提供 了 获取 其 内 部 数据 存 取 区 的 接口 时 ， 可 以 是 用 
numpy.frombufferO 创 建 一 个 数组 与 此 对 象 共享 数据 内 存 。 如 果 对 象 没 有 提供 该 接口 ， 但 是 能 够 
获取 数据 存储 区 的 地 址 ， 可 以 通过 ctypes 和 numpy.ctypeslib 模块 中 提供 的 函数 ， 创 建 与 对 象 共 
享 内 存 的 数组 。 下 面 以 PyQt4 中 的 QImage 对 象 为 例 ， 介 绍 如 何 创建 一 个 与 QImage 对 象 共享 内 
存 的 数组 。 

首先 创建 一 个 QImage 对 象 ， 并 载 入 "lenapng" 文 件 中 的 内 容 。 然 后 输出 与 图 像 相 关 的 一 些 
信息 ， 为 了 创建 与 该 图 像 共享 内 存 的 数组 ， 我 们 需要 使 用 这 些 信息 。 


from PyQt4.QtGui import QImage，qRgb 
img = QImage("lena.png") 
print "width & height:", img.width(), img.height() 


print "depth:"，img.depth() # 每 个 像素 的 比特 数 

print "format:", img.format(), QImage.Format_ RGB32 
print "byteCount:"，img.byteCount() # 图 像 的 总 字 节 数 
print "bytesPerLine:"，img.bytesPerLine() # 每 行 的 字 节 数 
print "bits:"，int(img.bits()) # 图 像 第 一 个 字 节 的 地 址 
width & height: 512 393 

depth: 32 

format: 4 4 

byteCount: 864864 

bytesPerLine: 2648 

bits: 156641248 


@ 由 于 我 们 只 知道 数据 的 地 址 ， 首 先 需要 使 用 ctypes.cast0 将 整数 转换 为 一 个 指向 单字 节 类 
型 的 指针 。@ 然 后 使 用 numpy.ctypeslib.as_array0 将 ctypes 的 指针 指向 的 内 存 转换 成 Numpy 的 数 
组 。as_array0 的 第 二 个 参数 是 该 数组 的 形状 ， 注 意 数组 的 第 0 轴 为 图 像 的 高 ， 第 1 轴 为 图 像 的 
宽 ， 第 2 轴 为 每 个 像素 的 字 节 数 。 


import ctypes 

addr = int(img.bits()) 

pointer = ctypes.cast(addr，ctypes.POINTER(ctypes.c_uint8)) © 

arr = np.ctypeslib.as_array(pointer, (img.height(), img.width(), img.depth()//8)) @ 


下 而 通过 ar 数组 和 img 对 象 查看 位 于 像素 坐标 (50,100) 处 的 像素 颜色 值 ， 可 以 看 到 二 者 是 
完全 相同 的 : 


x, y = 100, 506 
b, g, r, a = arr[y, x] 
print qRgb(r, g, b) 
print img.pixel(x, y) 
4289282386 

42892823868 


下 而 通过 arr 数组 修改 颜色 值 ， 并 通过 img 对 象 查看 修改 的 结果 ， 由 结果 可 知 二 者 的 确 共 
享 着 同一 块 内 存 : 
arr[y，x，:3] = 8x12, @x34, 8x56 


print hex(img.pixel(x, y)) 
@xff563412L 


使 用 上 述 方法 共享 内 存 时 需 注意 必须 保持 目标 对 象 处 于 可 访问 状态 。 例 如 在 上 例 中 ， 如 果 
执行 del img 语句 引起 img 对 象 被 垃圾 回收 ， 则 通过 ar 数组 将 访问 被 释放 掉 的 内 存 区 域 。 为 了 
解决 这 个 问题 ， 可 以 让 数组 的 base 属性 引用 目标 对 象 ， 这 样 只 要 数组 不 被 释放 ， 则 目标 对 象 也 
不 会 被 释放 。 为 了 能 正确 设置 base 属性 ， 需 要 使 用 数组 的 _array_interface_ 接 口 。 
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@ 在 调用 amray0 将 目标 对 象 转换 成 数组 时 ， 如 果 目 标 对 象 拥有 _ array_interface “属性 ， 则 
根据 该 属性 的 描述 创建 数组 。 它 是 一 个 具有 特定 键 值 的 字典 ， 参 见 表 2-10。 


表 2-10 键 值 及 含义 


键 值 含义 
shape 所 创建 数组 的 形状 
data 数据 存储 区 的 首 地 址 ， 以 及 是 否 只 读 
strides 数组 的 strides 属性 
typestr 元 素 类 型 描述 符 
descr 如 果 创 建 结构 数组 ， 该 键 描述 结构 体 各 个 字段 名 以 及 对 应 的 数据 类 型 
Version 闫 定 为 3 


@ 设 置 copy 参数 为 False， 这 样 所 创建 的 数组 与 目标 对 象 共 享 内 存 ， 否 则 将 复制 目标 对 象 
的 内 存 。@ 在 创建 完 数组 之 后 ， 可 以 删除 _array_interface_ 属性 。@ 所 得 到 的 数组 arr2 与 ar 相 
同 ， 并 且 其 base 属性 为 img 对象。 


interface = { 
'shape': (img.height(), img.width(), 4), 
"data': (int(img.bits()), False), 
'strides': (img.bytesPerLine(), 4, 1), 
'typestr': "|u1", 
"version': 3， 


} 


img.__array_interface_ = interface © 


arr2 = np.array(img, copy=False) ©@ 
del img._array_interface _ © 
print np.all(arr2 == arr), arr2.base is img @ 


True True 


如 果 目 标 对 象 只 读 ， 无 法 为 其 添加 _aray_interface_ 属 性 ， 可 以 创建 一 个 代理 用 的 
ArrayProxy 对 象 ， 在 该 代理 对 象 中 引用 目标 对 象 ， 使 其 不 会 被 垃圾 回收 ， 同 时 提供 
__array_interface 属性， 以 供 创建 相应 的 数组 。 

class ArrayProxy(object) : 
def _jnit_ (self，base，jinterface) : 


self.base = base 
self._array_interface = interface 


arr3 = np.array(ArrayProxy(img, interface), copy=False) 
print np.all(arr3 == arr) 
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True 
2.5.3 与 结构 数组 共享 内 存 


从 结构 数组 获取 某 个 字段 时 ， 得 到 的 是 原 数 组 的 视图 ， 但 是 如 果 获 取 多 个 字段 ,将 得 到 一 
个 全 新 的 数组 ， 不 与 原 数组 共享 内 存 。 


persontype = np.dtype({ 
'names':['name', 'age', 'weight', "height']， 
'formats':['S30',"i', 'f', 'f']}, align= True ) 
a = np.array([("Zhang", 32, 72.5, 167.06), 
("Wang", 24, 65.2, 178.0)], dtype=persontype) 


print a["age"].base is a # 视 图 

print a[["age", "height"]].base is None # 复 制 
True 

True 


为 了 创建 结构 数组 的 多 字段 视图 , 可 以 使 用 下 面 的 fields_view0 函 数 。 它 通过 原 数组 的 dtype 
属性 创建 视图 数组 的 dtype 对 象 。 然 后 通过 ndarray0 创 建 视图 数组 。 


def fields view(arr, fields): 
dtype2 = np.dtype({name:arr.dtype.fields[name] for name in fields}) 
return np.ndarray(arr.shape, dtype2, arr, 0, arr.strides) 


v = fields view(a, ["age", "weight"]) 
print v.base is a 


v["age"] += 16 

print a 

True 

[('Zhang', 42, 72.5, 167.0) ('Wang' ，34，65.19999694824219，176.6)] 


dtype 对 象 的 fields 属性 是 一 个 以 字段 名 为 键 、 以 字段 类 型 和 字 节 偏 移 量 为 值 的 字典 ， 使 用 
它 创建 新 的 dtype 对 象 时 ， 可 以 保持 字段 的 偏 移 量 : 


print a.dtype.fields 

print a.dtype 

print v.dtype 

{'age': (dtype('int32'), 32), 'name': (dtype('S38'), 8), 

"weight': (dtype('float32'), 36), 'height': (dtype('float32'), 40)} 

{'names':['name', 'age', 'weight', 'height'], 'formats':['S30','<i4','<f4','<f4'], 
"offsets' :[6,32,36,46]， "itemsize' :44， 'aligned' :True} 

{'names':['age', 'weight'], 'formats':['<i4','<f4'], 'offsets':[32,36], 'itemsize' :46} 
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如 果 这 两 个 dtype 对 象 的 itemsize 属性 相同 ,那么 可 以 使 用 数组 的 view0 方 法 创建 视图 对 象 。 
但 是 从 上 面 的 输出 可 以 看 到 两 个 dtype 对 象 的 字 节 数 并 不 相同 ， 一 个 是 4 个 字 节 ， 另 一 个 是 40 
个 字 节 。 遇 到 这 种 情况 时 ， 可 以 使 用 ndaray0 创 建 数组 的 视图 ， 它 的 调用 参数 如 下 : 


ndarray(shape，dtype=float，buffer=None，offset=8，strides=None，order=None) 


e shape: 所 创建 数组 的 形状 。 

edtype: 数组 元 素 类 型 的 dtype 对 象 。 

e buffer: 拥有 buffer 接 口 的 对 象 ， 所 创建 的 数组 将 与 该 对 象 共享 内 存 。 

e@ offset，buffer 对象 的 数据 内 存 中 的 起 始 地 址 的 偏 移 量 。 

e@ strides: 所 创建 数组 的 strides 属性 ， 即 每 个 轴 上 的 下 标 增加 1 时 的 地 址 增 量 。 

e order: C 语 言 格式 或 Fortran 语言 格式 。 

在 fields_view0 中 , 我 们 所 创建 的 数组 视图 与 原 数组 拥有 相同 的 shape、data 和 strides 属性 。 
而 dtype 属 性 中 的 字段 与 原 数组 拥有 相同 的 偏 移 量 , 显然 这 样 的 新 数组 能 够 与 原 数组 共享 内 存 。 
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SciPy- 数 值 计 算 库 


SciPy 在 NumPy 的 基础 上 增加 了 众多 的 数学 计算 、 科 学 计算 以 及 工程 计算 中 常用 的 模块 ， 
人 常 微分 方程 数值 求解 、 信 号 处 理 、 图 像 处 理 、 稀 芍 和 矩阵 等 。 在 本 章 中 ， 将 通过 
实例 介绍 SciPy 中 常用 的 一 些 模 块 。 为 了 方便 读者 理解 ,在 实例 程序 中 会 使 用 matplotib、TVTK 
以 及 Mayavi 等 扩展 库 绘 制 二 维和 三 维 的 图 表 。 在 阅读 实例 的 源 程 序 时 ， 读 者 可 以 忽略 绘图 部 
分 ， 在 后 续 的 章节 中 ， 我 们 会 对 这 些 绘图 库 进行 详细 介绍 。 
本 章 的 所 有 实例 程序 都 在 SciPy 0.15 下 调试 通过 ， 请 读者 在 运行 之 前 检查 SciPy 的 版 本 : 
import scipy 
scipy._ version__ 
'@.15.0" 


3.1 常数 和 特殊 函数 
会 与 本 节 内 容 对 应 的 Notebook 为 : 03-scipy/scipy-100-introipynb。 


SciPy 的 constants 模块 包含 了 众多 的 物理 常数 : 


from scipy import constants as C 
print C.c # 真空 中 的 光速 

print C.h # 普 朗 克 常 数 
299792458.6 

6.62666957e-34 


在 字典 physical_constants 中 ， 以 物理 常量 名 为 键 ， 对 应 的 值 是 一 个 含有 三 个 元 素 的 元 组 ， 
分 别 为 常数 值 、 单 位 以 及 误差 ， 例 如 下 面 的 程序 用 来 查看 电子 的 质量 : 


C.physical_ constants["electron mass"] 
(9.16938291e-31, 'kg', 4e-38) 


除了 物理 常数 之 外 ，constants 模 岂 中 还 包括 许多 单位 信息 ， 它 们 是 1 单位 的 量 转换 成 标准 
单位 时 的 数值 : 
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# 工 英 里 等 于 多 少 米 ，1 英寸 等 于 多 少 米 ，1 克 等 于 多 少 千克 ，1 磅 等 于 多 少 千克 
C.mile C.inch C.gram C.pound 


1669.3439999999998 8.6254 68.6681 8.45359236999999997 


SciPy 的 special 模块 是 一 个 非常 完整 的 函数 库 ， 其 中 包含 了 基本 数学 函数 、 特 殊 数学 函数 
以 及 NumPy 中 出 现 的 所 有 函数 。 由 于 函数 数量 众多 ， 本 节 仅 对 其 进行 简要 介绍 。 至 于 其 具体 
所 包含 的 函数 列表 ， 请 读者 参考 SciPy 的 帮助 文档 。 

伽 玛 (gamma) 函 数 [ 是 概率 统计 学 中 经 常 出 现 的 一 个 特殊 函数 ， 它 的 计算 公式 如 下 : 


T(z) = | tle-tdt 
0 


显然 ， 要 通过 此 公式 计算 F(z) 的 值 是 比较 麻烦 的 ， 可 以 用 special 模块 中 的 gamma0 进 行 
计算 : 


import scipy.special as S 

print S.gamma(4) 

print S.gamma(0.5) 

print S.gamma(1+1j) # gamma 函数 支持 复数 
print S.gamma(1666) 

6.0 

1.77245385891 
(8.498615668118-6.154949828362]j ) 

inf 


T(z) 函 数 是 阶乘 函数 在 实数 和 复数 系 上 的 扩展 ， 它 的 增长 速度 非常 快 ，1000 的 阶乘 已 经 超 
过 了 双 精 度 浮 点 数 的 表示 范围 , 因此 结果 是 无 穷 大 。 为 了 计算 更 大 的 范围 , 可 以 使 用 gammaln0 
计算 In(IT(x)|) 的 值 ， 它 使 用 特殊 的 算法 ， 能 直接 计算 Tr 函数 的 对 数值 ， 因 此 可 以 表示 更 大 的 

S.gammaln(1666) 

5965 .2264232691868 


special 模块 中 的 某 些 函数 并 不 是 数学 意义 上 的 特殊 函数 ， 例 如 loglpCoO 计 算 log(1+4x) 的 值 。 
这 是 由 于 浮 点 数 的 精度 有 限 , 无 法 很 精确 地 表示 非常 接近 1 的 实数 。 例 如 无 法 用 浮 点 数 表 示 1+ 
le-20 的 值 ， 因 此 log(1+le-20) 的 值 为 0， 而 当 使 用 loglp0 时 ， 则 可 以 很 精确 地 计算 : 


print 1 + 1le-26 
print np.log(1+le-26) 
print S.1oglp(1le-26) 
二 :条 

8.6 

1e-26 
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实际 上 当 x 非常 小 时 ，loglp(%) 约 等 于 x， 这 可 以 通过 对 log(1+x) 进 行 泰勒 级 数 展开 证 明 。 
在 后 续 章节 我 们 会 学 习 如 何 用 符号 计算 库 SymPy 进行 泰勒 级 数 展 
这 些 特殊 函数 与 NumPy 中 的 一 般 数学 函数 一 样 ， 都 是 ufunc 函数 ， 支持 数组 的 广播 运算 。 
例如 ellipj(u, m) 计 算 雅 可 比 椭圆 函数 ， 它 有 两 个 参数 u 和 m， 返 回 4 个 值 sn、cn、dn 和 中 ， 其 中 
中 满足 下 面 的 椭圆 积分 ， 而 sn = sin 中 、cn = cosq、dn = V1 一 msin2 中 。 
中 


3 | V1 一 msin26 
于 ellipj0 支 持 广播 运算 ， 因 此 下 面 的 程序 在 调用 它 时 传递 的 两 个 参数 的 形状 分 别 为 (200， 
了 和 (1, 5)， 于 是 得 到 的 4 个 结果 数组 的 形状 都 为 (200, 5)， 图 3-1 显示 了 这 些 曲 线 。 


m= np.linspace(98.1, 0.9, 4) 
u = np.linspace(-10, 106, 280) 
results = S.ellipj(u[:, None], m[None, :]) 


print [y.shape for y in results] 
[(260, 4), (260, 4), (260, 4), (260, 4)] 


图 3-1 使 用 广播 计算 得 到 的 ellipj0 返 回 值 


3.2 拟 合 与 优化 -optimize 


会 与 本 节 内 容 对 应 的 Notebook 为 : 03-scipy/scipy-210-optimize.ipynb。 


SciPy 的 optimize 模块 提供 了 许多 数值 优化 算法 ,本 节 对 其 中 的 非 线性 方程 组 求解 、 数据 拟 
合 、 函 数 最 小 值 等 进行 简单 介绍 。 
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3.2.1 非 线性 方程 组 求解 


fsolve0 可 以 对 非 线 性 方程 组 进行 求解 ， 它 的 基本 调用 形式 为 fsolve(func, x0)。 其 中 func 是 


| 


”~ 


进行 求解 : 


计算 方程 组 误差 的 函数 ， 它 的 参数 x 是 一 个 数组 ， 其 值 为 方程 组 的 一 组 可 能 的 解 。func 返回 将 
代入 方程 组 之 后 得 到 的 每 个 方程 的 误差 ，x0 为 未 知 数 的 一 组 初始 值 。 假 设 要 对 下 面 的 方程 组 


fl(ul,u2,u3) = 0，f2(ulu2,u3) = 0, f3(u1,u2,u3)= 0 


那么 func 函数 可 以 定义 如 下 : 


def func(x): 
Ul,u2,uU3 = X 
return [f1(u1,u2,u3), f2(u1,u2,u3), f3(u1,u2 


下 面 我 们 看 一 个 对 下 列 方程 组 求解 的 例子 : 


,U3)] 


5x1+3=0, 4x8—2sin(x1x2) = 0, x1x2—1.5=0 


from math import sin, cos 
from scipy import optimize 


def f(x): © 
x0, x1, x2 = x.tolist() © 
return [ 
5*X1+3， 
4*x@*x@ - 2*sin(x1*x2), 
Xi1*x2 -= 1.5 
1 


# 下 计算 方程 组 的 误差 ，[1,1,1] 是 未 知 数 的 初始 值 
result = optimize.fsolve(f, [1,1,1]) © 

print result 

print f(result) 

[-8.76622657 -8.6 -2.5 中 
[8.6，-9.126633262418787e-14，5.329676518266751e 


@f0 是 计算 方程 组 的 误差 的 函数 ，x 参数 是 一 组 可 


-15] 


[能 的 解 。fsolve0 在 调用 f0 时 ， 传 递 给 f0 


转换 为 Python 的 标准 浮 点 数列 表 ， 然 后 


的 参数 是 一 个 数组 。@ 先 调用 数组 的 tolist0 方 法 ， 将 其 


调用 math 模块 中 的 函数 进行 运算 。 因 为 在 进行 单个 数值 的 运算 时 ， 标 准 浮 点 类 型 比 NumPy 的 


浮 点 类 型 要 快 许多 , 所 以 把 数值 都 转换 成 标准 浮 点 数 类 型 , 能 缩短 一 些 计算 时 间 。@ 调 用 fsolve0 


时 ， 传 递 计算 误差 的 函数 f0 以 及 未 知 数 的 初始 值 。 


在 对 方程 组 进行 求解 时 ，fsolve0 会 自动 计算 方程 组 在 某 点 对 各 个 未 知 数 变量 的 偏 导数 ， 这 


些 偏 导数 组 成 一 个 二 维 数组 ， 数 学 上 称 之 为 雅 可 比 算 阵 。 如 果 方 程 组 中 的 未 知 数 很 多 ， 而 与 每 


个 方程 有 关联 的 未 知 数 较 少 ， 即 雅 可 比 窍 阵 比 较 稀 琉 时 ， 将 计算 雅 可 比 窍 阵 的 函数 作为 参数 传 


递 给 fsolve0， 这 能 大 幅度 提高 运算 速度 。 笔 者 在 一 个 模拟 计算 的 程序 中 需要 求解 有 50 个 未 知 
数 的 非 线性 方程 组 。 每 个 方程 平均 与 6 个 未 知 数 相关 , 通过 传递 计算 雅 可 比 矩 阵 的 函数 使 fsolve0 
的 计算 速度 提高 了 4 倍 。 


雅 可 比 和 矩阵 
雅 可 比 短 阵 是 一 阶 偏 导 数 以 一 定 方式 排列 的 和 矩阵, 它 给 出 了 可 微分 方程 与 给 定点 的 最 优 线 
性 逼近 ， 因 此 类 似 于 多 元 函数 的 导数 。 例 如 前 面 的 函数 fl、 亿 、 全 和 未 知 数 ul、u2、u3 的 雅 可 
比 矩 阵 如 下 : 
ofl ofl 6fl 


aul 5u2 au3 
of2 6f2 of2 


aul 5u2 9u3 
af3 63 9f3 


bul au2 5u3 


F 面 使 用 雅 可 比 矩阵 对 方程 组 进行 求解 。@ 计 算 雅 可 比 矩阵 的 函数 j0 和 f0 一 样 ， 其 x 参 
数 是 未 知 数 的 一 组 值 ， 它 计算 非 线性 方程 组 在 x 处 的 雅 可 比 稽 阵 。@ 通 过 fprime 参数 将 0 传递 
给 folve0。 由 于 本 例 中 的 未 知 数 很 少 ， 因 此 计算 雅 可 比 生 阵 并 不 能 显著 地 提高 计算 速度 。 


def j(x): © 
Xx8，x1，x2 = x.tolist() 
return [ 
[6， 5, ©], 
[8*x@, -2*x2*cos(x1*x2), -2*x1l*cos(x1*x2)], 
| | 
] 


result = optimize.fsolve(f, [1,1,1], fprime=j) ©@ 
print result 

print f(result) 

[-8.78622657 -0.6 -2.5 | 
[8.6，-9.126633262418787e-14，5.329676518266751e-15] 


3.2.2 ”最 小 二 乘 拟 合 

假设 有 一 组 实验 数据 (xi,yi)， 我 们 事先 知道 它们 之 间 应 该 满足 某 函数 关系 : yi = f(xi)。 通 
过 这 些 已 知 信息 ， 需 要 确定 函数 fO 的 一 些 参数 。 例 如, 如果 函 数 fO 是 线性 函数 fox) = kx + b， 
那么 参数 k 和 b 就 是 需要 确定 的 值 。 

如 果 用 p 表 示 函 数 中 需要 确定 的 参数 ， 则 目标 是 找到 一 组 p 使 得 函数 S$ 的 值 最 小 : 


SO) = 》[yi -fu DT 
i=1 
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这 种 算法 被 称 为 最 小 二 乘 拟 合 (least-square fitting)。 在 optimize 模块 中 ， 可 以 使 用 leastsq0 对 
数据 进行 最 小 二 乘 拟 合计 算 。leastsq0 的 用 法 很 简单 ， 只 需要 将 计算 误差 的 函数 和 待 确定 参数 的 
初始 值 传递 给 它 即 可 。 下 面 是 用 leastsq0 对 线性 函数 进行 拟 合 的 程序 


import numpy as np 
from scipy import optimize 


X= np.array([ 8.19, 2.72, 6.39, 8.71, 4.7 ， 2.66, 3.78]) 
Y= np.array([ 7.61, 2.78, 6.47, 6.71, 4.1 , 4.23, 4.65]) 


def residuals(p): © 
"计算 以 p 为 参数 的 直线 和 原始 数据 之 间 的 误差 " 
k,b=p 
return Y - (k*X + b) 


# leastsq 使 得 residuals() 的 输出 数组 的 平方 和 最 小 ， 参 数 的 初始 值 为 [1,8] 
r = optimize.leastsq(residuals, [1, 8]) @ 

kb = r[6] 

print "k =",k, "b =",b 

k = 0.613495349193 b = 1.79469254326 


图 3-2( 左 ) 直 观 地 显示 了 原始 数据 、 拟 合 直 线 以 及 它们 之 间 的 误差 。@residuals0 的 参数 p 是 

合 直线 的 参数 ， 函 数 返 回 的 是 原始 数据 和 拟 合 直线 之 间 的 误差 。 图 中 用 数据 点 到 拟 合 直线 在 
0 上 的 距离 表示 误差 。@leastsq0 使 得 这 些 误差 的 平方 和 最 小 ， 即 图 中 所 有 正方 形 的 面积 之 和 
最 小 。 

由 前 面 的 函数 S 的 公式 可 知 ， 对 于 直线 拟 合 来 说 ， 误 差 的 平方 和 是 直线 参数 k 和 b 的 二 次 多 
项 式 函 数 ， 因 此 可 以 用 如 图 3-2( 右 ) 所 示 的 曲面 和 了 
图 中 用 红色 圆 点 表示 曲面 的 最 小 点 ， 它 的 X-Y 轴 的 坐标 就 是 leastsq0 的 拟 合 结 


图 3-2 最 小 化 正方 形 面积 之 和 ( 左 )， 误 差 曲面 ( 右 ) 


接 下 来 ， 让 我 们 再 看 一 个 对 正弦 波 数 据 进行 拟 合 的 例子 : 


def func(x, p): © 
数据 拟 合 所 用 的 函数 : A*sin(2*pi*k*x + theta) 


A，k，theta = p 
return A*np.sin(2*np.pi*k*x+theta) 


def residuals(p，y，x): © 


实验 数据 x，y 和 拟 合 函数 之 间 的 差 ，p 为 拟 合 需要 找到 的 系数 


return y - func(x, p) 


x = np.linspace(86，2#xnp.pi，166) 

A，k，theta = 196，6.34，np.pi/6 # 真实 数据 的 函数 参数 
ye = func(x，[A，k，theta]) # 真实 数据 

# 加 入 噪声 之 后 的 实验 数据 

np.random. seed(@) 

yl = y0 + 2 * np.random.randn(len(x)) © 


pe = [7，8.46，8] # 第 一 次 猜测 的 函数 拟 合 参数 


# 调用 leastsq 进行 数据 拟 合 

# residuals 为 计算 误差 的 函数 

# pe 为 拟 合 参数 的 初始 值 

# args 为 需要 拟 合 的 实验 数据 

plsq = optimize.leastsq(residuals, pe, args=(y1, x)) © 


print u" 真 实 参 数 :"，[A,，k，theta] 
print u" 拟 合 参数 "，plsq[8] # 实验 数据 拟 合 后 的 参数 


pl.plot(x，y1，"o"，l1abel=u" 带 噪声 的 实验 数据 ") 
pl.plot(x，y8，label=u" 真 实数 据 ") 
pl.plot(x，func(x，plsq[8])，label=u" 拟 合 数 据 ") 
pl.legend(loc="best") 

真实 参数 : [16，8.34，8.5235987755982988] 

拟 合 参数 [ 18.25218748 8.3423992 8.58817424] 


图 3-3 显示 了 带 噪声 的 正弦 波 拟 合 。 
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上 © 带 噪声 的 实验 数据 
一 真实 数据 
一 拟 合 数据 


图 3-3 带 噪声 的 正弦 波 拟 合 


程序 中 ，@ 要 拟 合 的 目标 函数 func0 是 一 个 正弦 函数 ， 它 的 参数 p 是 一 个 数组 ， 包 含 决定 
正弦 波 的 三 个 参数 A、k、theta， 分 别 对 应 正弦 函数 的 振幅 、 频 率 和 相 角 。@ 待 拟 合 的 实验 数据 


是 一 组 包含 噪声 的 数据 (x, yD)， 其 中 数组 yl 为 标准 正弦 波 数 据 y0 加 上 随机 噪声 。 


@ 用 leastsq0 对 带 噪声 的 实验 数据 (x,y 了 有 ) 进 行 数据 拟 合 , 它 可 以 找到 数组 x 和 y0 之 间 的 正弦 
关系 ， 即 确定 A、k、theta 等 参数 。 和 前 面 的 直线 拟 合 程序 不 同 的 是 ， 这 里 我 们 将 (y1, x) 传 递 给 
args 参数 。leastsq0 会 将 这 两 个 额外 的 参数 传递 给 residuals0。@@ 因 此 residuals0 有 三 个 参数 ，p 是 


正弦 函数 的 参数 ，y 和 x 是 表示 实验 数据 的 数组 。 
对 - 


和 


传 入 。 


def func2(x, A, k, theta): 
return A*np.sin(2*np.pi*k*x+theta) 


popt, _ = optimize.curve_fit(func2, x, yl1, pe=p@) 
print popt 
[ 18.25218748 8.3423992 8@.56817424] 


如 果 频 率 的 初 值 和 真实 值 的 差别 较 大 , 拟 合 结果 中 的 频率 参数 可 能 无 法 收敛 


在 下 
通过 其 他 方法 先 估算 一 个 频率 的 近似 值 ， 或 者 使 用 全 局 优化 算法 。 在 后 面 的 例子 
全 局 优化 算法 重新 对 正弦 波 数 据 进 行 拟 合 。 


popt, _ = optimize.curve fit(func2, x, yl, pe@=[16, 1, 80]) 
print uw" 真实 参数 :"，[A,，k，theta] 

print u" 拟 合 参数 "，popt 

真实 参数 : [16，6.34，6.5235987755982988] 

拟 合 参数 [ 86.71693473 ”1.62674599 -8.1277666 ] 


于 这 种 一 维 曲线 拟 合 ，optimize 库 还 提供 了 一 个 curve_fit0 函 数 ， 下 面 使 用 此 函数 对 正弦 
波 数据 进行 拟 合 。 它 的 目标 函数 与 leastsq0 稍 有 不 同 ， 各 个 待 优化 参数 直接 作为 函数 的 参数 


面 的 例子 中 ， 由 于 频率 初 值 的 选择 不 当 ， 导 致 carve_fit0 未 能 收敛 到 真实 的 参数 。 这 时 可 以 


3.2.3 ”计算 函数 局 域 最 小 值 


optimize 库 还 提供 了 许多 求 函数 最 小 值 的 算法 : Nelder-Mead、Powell、.CG、BFGS、Newton-CG、 
L-BFGS-B 等 。 下 面 我 们 用 一 个 实例 观察 这 些 优化 函数 是 如 何 找到 函数 的 最 小 值 的。 在 本 例 中 ， 
要 计算 最 小 值 的 函数 f(x,y) 为 : 

f(x,y) = (1 —x)? + 100(y— x?)? 

这 个 函数 叫 作 Rosenbrock 函数 ， 它 经 常用 来 测试 最 小 化 算法 的 收敛 速度 。 它 有 一 个 十 分 平 
坦 的 山谷 区 域 ， 收 敛 到 此 山谷 区 域 比 较 容 易 ， 但 是 在 山谷 区 域 搜索 到 最 小 点 则 比较 困难 。 根 据 
函数 的 计算 公式 不 难看 出 此 函数 的 最 小 值 是 0， 在 (1.D 处 。 

为 了 提高 运算 速度 和 精度 ， 有 些 算 法 带 有 一 个 fprime 参 数 ， 它 是 计算 目标 函数 40 对 各 个 自 
变量 的 偏 导数 的 函数 。f(xy) 对 变量 x 和 yy 的 偏 导 函数 为 : 

of 


一 = 一 二 2 
a 2 十 2x 一 400x(y —x’“) 


of = 200y — 200x? 
tA 


而 Newton-CG 算法 则 需要 计算 海 森 和 矩阵, 它 是 一 个 由 自 变量 为 向 量 的 实 值 函 数 的 三 阶 偏 导 
数 构成 的 方块 矩阵 ， 对 于 函数 fxuxz….,x)， 其 海 森 窍 阵 的 定义 如 下 ， 


D2f 92f 02f 
Ox? ”0xl 0x2 Ox1 Oxn 
D2f D2f 02f 


Ox2 OX1 ax a Ox2 Oxn 
02f 92f 02f 
OxnOx1 OxnOX2 Ox& 
对 于 本 例 来 说 ， 海 森 矩 阵 为 一 个 二 阶 矩 阵 : 
2(600x? — 200y +1) 一 400x 


—400x 200 
下 面 使 用 各 种 最 小 值 优 化 算法 计算 fCxy) 的 最 小 值 ， 根 据 其 输出 可 知 有 些 算法 需要 较 长 的 
收敛 时 间 ， 而 有 些 算法 则 利用 导数 信息 更 快 地 找到 最 小 点 。 


def target function(x, y): 
return (1-x)**2 + 1060*(y-x**2)**2 


class TargetFunction(object): 


def _ init (self): 
self.f points = [] 
self.fprime points = [] 
self.fhess points = [] 
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def f(self, p): 


x, y = p.tolist() 
z = target function(x, y) 
self.f_points.append((x, y)) 


return z 


def fprime(self, p): 
x, y = p.tolist() 
self.fprime_points.append((x, y)) 

-2 + 2*x - 400*x*(y - x**2) 

dy = 266+y - 200*x**2 

return np.array([dx, dy]) 


dx = 


def fhess(self, p): 
x, y = p.tolist() 
self.fhess_points.append( (x, y)) 
return np.array([[2*(6060*x**2 - 260*y + 1), -466*x], 
[-466*x，266]]) 


def fmin_demo(method) : 
target = TargetFunction() 
jinit_point =(-1，-1) 
res = optimize.minimize(target.f, init point, 
method=method, 
jac=target .fprime, 


hess=target.fhess) 
return res, [np.array(points) for points jin 
(target.f_points，target.fprime_points，target.fhess_points)] 


methods = ("Nelder-Mead", "Powell", "CG", "BFGS", "Newton-CG", "L-BFGS-B") 

for method in methods: 

res, (f_points, fprime points, fhess points) = fmin_demo(method) 

print "{:12s}: min={:12g}, f count={:3d}, fprime count={:3d}, "\ 

"fhess count={:3d}".format( 

method, float(res["fun"]), len(f points), 
len(fprime points), len(fhess points)) 


Nelder-Mead : 


Powell 

CG 

BFGS 
Newton-CG 
L-BFGS-B 


min= 


: min= 
: min= 
: min= 
: min= 


: min= 


5.36934e-16， 
9， 
7.6345e-15， 
2.31665e-16， 
5.22666e-16， 
6.5215e-15， 


玉 


count=125, fprime 
count= 52, fprime 
count= 34, fprime 
count= 46，fprime 
count= 60, fprime 
count= 33, fprime 


count= 
count= 
count= 
count= 
count= 
count= 


fhess 
fhess 
fhess 
fhess 
fhess 
fhess 


count= @ 
count= @ 
count= @ 
count= @ 
count= 38 
count= 0@ 


图 34 显示 了 各 种 优化 算法 的 搜索 路 径 ， 图 中 用 圆 点 表示 调用 10 时 的 坐标 点 ， 圆 点 的 颜色 
表示 调用 顺序 ;又 点 表示 调用 fprime0 时 的 坐标 点 。 图 中 用 图 像 表 示 二 维 函 数 的 值 ， 值 越 大 则 
颜色 越 浅 ， 值 越 小 则 颜色 越 深 。 为 了 更 清晰 地 显示 函数 的 山谷 区 域 ， 图 中 显示 的 实际 上 是 通过 
对 数 函 数 log100 对 f(x,y) 进 行 处 理 之 后 的 结果 。 


Nelder-Mead Powell CG 


| 
no -Nw 
一 一 


号 
2 
1 
0 
-1 
| 
-3 


一 
3 -2-10 1 2 3 


一 
-3 -2 -1 0 1 2 3 
Newton-CG L-BFGS-B 


1 
i 
和 


图 34 各 种 优化 算法 的 搜索 路 径 
3.2.4 ”计算 全 域 最 小 值 


前 面 介绍 的 几 种 最 小 值 优化 算法 都 只 能 计算 局 域 的 最 小 值 ，optimize 库 还 提供 了 儿 种 能 进 
行 全 局 优化 的 算法 ， 下 面 以 前 面 的 正弦 波 拟 合 为 例 , 演示 全 局 优化 函数 的 用 法 。 在 使 用 leastsq0 
对 正弦 波 进 行 拟 合 时 ， 误 差 函 数 residuals0 返 回 一 个 数组 ， 表 示 各 个 取样 点 的 误差 。 而 函数 最 小 
值 算法 则 只 能 对 一 个 标量 值 进行 最 小 化 ， 因 此 最 小 化 的 目标 函数 func_error0 返 回 所 有 取样 点 的 
误差 的 平方 和 。 


def func(x, p): 
A, k, theta=p 
return A*np.sin(2*np.pi*k*x+theta) 


def func_error(p, y, xX): 
return np.sum((y - func(x, p))**2) 


x = np.linspace(0, 2*np.pi, 100) 

A, k, theta = 10, 8.34, np.pi/6 

ye = func(x, [A, k, theta]) 
np.random. seed(@) 

yl = ye@ + 2 * np.random.randn(len(x)) 
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我 们 使 用 optimize.basinhopping0 全 域 优化 函数 找 出 正弦 波 的 三 个 参数 。 它 的 前 两 个 参数 和 

其 他 求 最 小 值 的 函数 一 样 : 目标 函数 和 初始 值 。 由 于 它 是 全 局 优化 函数 ， 因 此 初始 值 的 选择 并 

不 是 太 重要 。mniter 参数 是 全 域 优 化 算法 的 迭代 次 数 ， 迭 代 的 次 数 越 多 ， 就 越 有 可 能 找到 全 域 最 

在 basinhopping0 内 部 需要 调用 局 域 最 小 值 函 数 ， 其 minimizer kwargs 参数 决定 了 所 采用 的 

局 域 最 小 值 算法 以 及 传递 给 此 函数 的 参数 。 下 面 的 程序 指定 使 用 L-BFGS-B 算法 搜索 局 域 最 小 

值 , 并 且 将 两 个 对 象 yl 和 x 传递 给 该 局 域 最 小 值 求解 函数 的 args 参数 , 而 该 函数 会 将 这 两 个 参 
数 传 递 给 func_error()。 


result = optimize.basinhopping(func_error, (1, 1, 1), 
niter = 16， 
minimizer_kwargs={"method":"L-BFGS-B", 
"args":(y1, x)}) 
print result.x 
[ 18.25218694 -6.34239969 2.63341582] 


虽然 频率 和 相位 与 原 系数 不 同 , 但 是 由 于 正弦 函数 的 周期 性 ， 其 拟 合 曲线 是 和 原始 数据 重 
合 的 ， 如 图 3-5 所 示 。 


@ @ 带 噪声 的 实验 数据 
一 真实 数据 
一 拟 合 数据 


图 3-5 用 basinhopping0 拟 合 正弦 波 


33 线性 代数 -linalg 


A 与 本 节 内 容 对 应 的 Notebook 为 : 03-scipy/scipy-310-linalgipynb。 


NumPy 和 SciPy 都 提供 了 线性 代数 函数 库 linalg，SciPy 的 线性 代数 库 比 NumPy 更 加 全 面 。 


3.3.1 解 线性 方程 组 

numpy.linalg.solve(A, bb 和 scipy.linalg.solve(A, b) 可 以 用 来 解 线性 方程 组 Ax = b， 也 就 是 计算 
x 二 A-1b。 这 里 ，A 是 m x n 的 方形 矩阵 ，x 和 b 是 长 为 m 的 向 量 。 有 时 候 A 是 固定 的 ， 需 要 对 多 
组 b 进 行 求解 ， 因 此 第 二 个 参数 也 可 以 是 m xn 的 矩阵 B。 这 样 计算 出 来 的 X 也 是 m x n 的 矩阵 ， 


相当 于 计算 A-1B。 
在 一 些 矩 阵 公式 中 经 党 


会 出 现 类 似 于 A-1B 的 运算 ， 它 们 都 可 以 用 solve(A,B) 计 算 ， 这 要 比 


直接 计算 逆 和 矩阵 然后 做 矩阵 乘法 更 快捷 一 些 ， 下 面 的 程序 比较 solve0 和 逆 矩 阵 的 运算 速度 : 


import 


numpy as np 


from scipy import linalg 


m, n= 
A=np 
B=np 
Xx1=1 


566，56 
.random.rand(m, m) 
.random.rand(m, n) 
inalg.solve(A, B) 


X2 = np.dot(linalg.inv(A), B) 
print np.allclose(X1，X2) 
%timeit linalg.solve(A, B) 
%timeit np.dot(linalg.inv(A), B) 


True 


166 loops, best of 3: 16.1 ms per loop 
16 loops, best of 3: 26 ms per loop 


若 需 要 对 多 组 B 进 行 求解 ， 但 是 又 不 好 将 它们 合并 成 一 个 矩阵 ， 例 如 某 些 矩阵 公式 中 可 能 


会 有 A-1B 


、A-1C、A-1D 等 乘法 , 而 B、C、D 是 通过 某 种 方式 逐次 计算 的 。 这 时 可 以 采用 lu_factor0 


和 lu_solve0。 先 调用 lu_factor(A) 对 和 矩阵 A 进行 LU 分 解 ， 得 到 一 个 元 组 : (LU 抵 阵 , 排序 数组 )。 
将 这 个 元 组 传递 给 lu_solve0, 即 可 对 不 同 的 B 进 行 求解 。 由 于 已 经 对 A 进 行 了 LU 分 解 , lu_solve0 
能 够 很 快 得 出 结果 。 


luf = linalg.lu_factor(A) 
X3 = linalg.lu_solve(luf, B) 
np.allclose(X1, Xx3) 


True 


除了 使 用 lu_factor0 和 lu_solve0 之 外 ， 可 以 先 通过 inv0 计 算 逆 和 矩阵， 然后 通过 dot0 计 算 算 


阵 乘积 。 下 面 比较 二 者 的 速度 ， 可 以 看 出 lu_factor0 比 inv0 要 快 很 多 ， 而 lu_solve0 和 dot0 的 运 
算 速度 儿 乎 相同 : 

M, N = 1686，166 

np.random.seed(6) 

A = np.random.rand(M，M) 
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B = np.random.rand(M, N) 

Ai = linalg.inv(A) 

luf = linalg.lu factor(A) 

%timeit linalg.inv(A) 

%timeit np.dot(Ai, B) 

%timeit linalg.lu factor(A) 

%timeit linalg.lu_solve(luf, B) 

16 loops, best of 3: 131 ms per loop 
166 loops, best of 3: 9.65 ms per loop 
16 loops, best of 3: 52.6 ms per loop 
166 loops, best of 3: 13.8 ms per loop 


3.3.2 ”最 小 二 乘 解 


lstsq0 比 solve0 更 一 般 化 ， 它 不 要 求 和 矩阵 A 是 正方 形 的 ， 也 就 是 说 方程 的 个 数 可 以 少 于 、 
等 于 或 多 于 未 知 数 的 个 数 。 它 找到 一 组 解 x， 使 得 ||b 一 Axl| 最 小 。 我 们 称 得 到 的 结果 为 最 小 二 
乘 解 , 即 它 使 得 所 有 等 式 的 误差 的 平方 和 最 小 。 下面 以 求解 离散 卷 积 的 逆 运 算 为 例 , 介绍 Istsq0 
的 用 法 。 

首先 简单 介绍 一 下 离散 卷 积 的 相关 知识 和 计算 方法 。 对 于 离散 的 线性 时 不 变 系统 h， 如 果 
它 的 输入 是 x， 那 么 其 输出 y 可 以 用 x 和 h 的 卷 积 表示 : y = x *h。 

离散 卷 积 的 计算 公式 如 下 : 
y[n] = Zh[m] xm — ml] 

假设 hb 的 长 度 为 n，x 的 长 度 为 m， 则 卷 积 计算 所 得 到 的 y 的 长 度 将 为 ntrm-1。 它 的 每 个 
值 都 是 按照 下 面 的 公式 计算 得 到 的 : 
[8] = h[6]*x[6] 
[1] = hfe]*x[1] + h[1]*x[e] 
[2] = hfe]*x[2] + h[1]*x[1] + h[2]*x[e] 
[3] = hfe]*x[3] + h[1]*x[2] + h[2]*x[1] 


a 


y[n+m-1] = h[n-1]*x[m-1] 


所谓 卷 积 的 逆 运 算 就 是 指 : 假设 已 知 x 和 yy， 需要 求解 h。 由 于 h 的 长 度 为 n， 于 是 有 n 个 
未 知 数 ， 而 由 于 y 的 长 度 为 ntm-1， 因 此 这 n 个 未 知 数 需要 满足 ntm-1 个 线性 方程 。 由 于 方 
程 数 比 未 知 数 多 ， 卷 积 的 逆 运 算 不 一 定 有 精确 解 ， 因 此 问题 就 变 成 了 找到 一 组 h， 使 得 xsh 与 
y 之 间 的 误差 最 小 ， 显 然 它 就 是 最 小 二 乘 解 。 下 面 的 程序 演示 了 如 何 使 用 lstsq0 计 算 卷 积 的 逆 
运算 : 
@@ 首 先 make data0 创 建 所 需 的 数据 , 它 使 用 随机 数 函数 standard_normal0 初 始 化 数组 x 和 he。 
在 实际 的 系统 中 h 通常 是 未 知 的， 并 且 值 会 逐渐 衰减 。make_data0 返 回 系统 的 输入 信号 x 以 及 
添加 了 随机 噪声 的 输出 信号 yn。 为 了 和 最 小 二 乘法 的 结果 相 比 较 , 我 们 同时 也 输出 了 系统 的 系 
数 h。 


@solve h0 使 用 最 小 二 乘法 计算 系统 的 参数 h, 因为 通常 我 们 不 知道 未 知 系统 的 
因此 这 里 用 N 表 示 所 求 系数 的 长 度 。 

观察 前 面 的 卷 积 方程 组 可 知 ， 在 n+m-1 个 方程 中 ， 中 间 的 n-m+l 个 方程 使 
系数 。 为 了 程序 计算 方便 ， 我 们 对 这 m-n+1 个 方程 进行 最 小 二 乘 运算 。 和 四 根据 h 的 


系数 的 长 度 ， 


了 hn 的 所 有 
长 度 ， 需 要 


将 一 维 数组 x 变 换 成 一 个 形状 为 Am-n+l,m 的 二 维 数组 X， 它 的 每 行 相对 于 上 一 行 都 左 移 了 一 个 


元 素 。 这 个 二 维 数组 可 以 很 容易 地 使 用 第 2 章 中 介绍 过 的 as_stided0 得 到 。@ 我 全 


取出 输出 数 


组 y 中 与 数组 X 每 行 对 应 的 部 分 , @ 然 后 调用 lstsqg0 对 这 m-n+l 个 方程 进行 最 小 二 乘 运 算 .@lstsq0 


返回 一 个 元 组 ， 它 的 第 0 个 元 素 是 最 小 二 乘 解 ， 注 
其 进行 翻转 。 


到 的 结果 顺序 是 颠倒 的 ， 因 


from numpy.1ib.stride tricks import as_strided 


def make_data(m，n，noise_scale): © 
np.random. seed(42) 
x = np.random. standard_normal(m) 
h = np.random. standard_normal(n) 
y = np.convolve(x, h) 
yn = y + np.random.standard normal(len(y)) * noise_scale * np.max(y) 
return x, yn, h 


def solve_ h(x, y, n): © 
X = as_strided(x, shape=(len(x)-n+1, n), strides=(x.itemsize, x.itemsize 
Y = y[n-1:len(x)] 9 
h = linalg.lstsq(X, Y) © 
return h[e@][::-1] © 


此 还 需要 对 


© 


接 下 来 对 长 度 为 100 的 未 知 系统 系数 h， 分 别 计算 长 度 为 8 和 120 的 最 小 二 乘 解 。 由 于 我 


们 对 系统 的 输出 添加 了 一 些 噪声 信号 ， 因 此 二 者 并 不 完全 吻合 。 图 3-6 比较 了 这 两 


x, yn, h = make_data(1660, 160, 6.4) 
H1 = solve_h(x, yn, 120) 
H2 = solve_h(x, yn, 88) 


print "Average error of H1:"，np.mean(np.abs(H[:166] - h)) 
print "Average error of H2:", np.mean(np.abs(h[:88] - H2)) 
Average error of H1: 8.361548854644 
Average error of H2: 8.295842215834 


个 解 与 真实 
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一 最 小 二 乘 解 H2 
一 
0 20 40 60 80 100 120 


图 3.6 实际 的 系统 参数 与 最 小 二 乘 解 的 比较 
3.3.3 ”特征 值 和 特征 向 量 


n x n 的 矩阵 A 可 以 看 作 n 维 空间 中 的 线性 变换 。 若 x 为 n 维 空间 中 的 一 个 向 量 ,， 那么 A 与 x 的 
矩阵 乘积 就 是 对 x 进行 线性 变换 之 后 的 向 量 。 如 果 x 是 线性 变换 的 特征 向 量 ， 那么 经 过 这 个 线性 
变换 之 后 ， 得 到 的 新 向 量 仍然 与 原来 的 x 保持 在 同一 方向 上 ， 但 其 长 度 也 许 会 改变 。 特 征 向 量 
的 长 度 在 该 线性 变换 下 缩放 的 比例 称 为 其 特征 值 。 即 特征 向 量 x 满 足 如 下 等 式 ， 和 的 值 可 以 是 一 
个 任意 复数 : 

Ax = Ax 

下 面 以 二 维 平面 上 的 线性 变换 矩阵 为 例 ， 演 示 特 征 值 和 特征 变量 的 几何 含义 。 通 过 
linalg.eig(A) 计 算 算 阵 A 的 两 个 特征 值 evalues 和 特征 向 量 evectors， 在 evectors 中 ， 每 一 列 是 一 个 
特征 向 量 。 

A = np.array([[1, -8.3], [-8.1, 8.9]]) 
evalues, evectors = linalg.eig(A) 
evalues evectors 
[ 1.13827756+8.j,， 8.76972244+8.j] [[ 8.91724574， 8.79325185]， 
[-8.3983218 ， 6.66889368]] 


图 3-7 显示 了 变换 前 后 的 向 量 。 在 图 中 ， 蓝 色 箭头 为 变换 之 前 的 向 量 ， 红 色 箭 头 为 变换 之 
后 的 向 量 。 粗 箭头 为 变换 前 后 的 特征 向 量 。 可 以 看 出 特征 向 量变 换 前 后 方向 没有 改变 ， 只 是 长 
度 发 生 了 变化 。 长 度 的 变化 倍数 由 特征 值 决定 : 一 个 变 为 原来 的 1.13 倍 长 , 一 个 变 为 原来 的 0.77 


倍 长 。 


-0.4-0.2 0.0 02 0.4 0.6 0.8 1.0 


图 3-7 线性 变换 将 蓝 色 箭头 变换 为 红色 箭头 


numpy.linalg 模块 中 也 有 eig0 函 数 ， 与 之 不 同 的 是 ，scipy.linalg 模块 中 的 eig0 函 数 支 持 计算 
广义 特征 值 和 广义 特征 向 量 ， 它 们 满足 如 下 等 式 ， 其 中 B 是 一 个 n xn 的 矩阵 ; 
Ax = ABx 
广义 特征 向 量 可 以 用 于 椭圆 拟 合 ， 椭 圆 拟 合 的 公式 与 原理 可 以 参考 下 面 的 论文 : 


http://research.microsoft.com/pubs/67845/ellipse-pami.pdf 
用 广义 特征 向 量 计算 椭圆 拟 合 。 


椭圆 上 的 点 满足 如 下 方程 ， 其 中 a, b,c, de, {为 椭圆 的 参数 ，(x,y) 为 平面 上 的 坐标 点 : 
f(xy)=ax*+bxy+cy*+dx+ey+f=0 

所 谓 椭圆 拟 合 , 就 是 指 给 出 一 组 平面 上 的 点 (xi,yi)， 找到 一 组 椭圆 参数 ,使 得 >f(xi, yi)? 最 
小 。 显 然 这 是 一 个 最 小 化 问题 ， 可 以 使 用 上 节 介 绍 的 优化 算法 optimizeleastsq0 求 解 。 为 了 避免 
参数 全 为 0 的 平凡 解 ， 需 要 一 点 小 技巧 ， 请 读者 自行 演练 一 下 。 下 面 给 出 论文 中 用 广义 特征 向 
量 计算 椭圆 拟 合 的 方法 : 

首先 定义 xi = [x?,xiyi,y? ,xivyi1]"，D = [xi …,Xn]。D 是 一 个 n x 6 的 矩阵 ， 其 中 n 为 点 
的 个 数 ，D 中 的 每 一 行 与 一 个 坐标 点 相对 应 。a 为 拟 合 椭圆 的 系数 : a = [ab,c d, e,f"。 则 a 满 


足 如 下 方程 
DIDa = 和 Ca 
其 中 C 是 一 个 6 x 6 的 矩阵 
0 0 2000 
0 -10000 
c=l2 0 0000 
|o0 0 0000 
0 0 0000 
0 0 0000 


显然 上 式 符 合 广义 特征 向 量 的 等 式 ， 因 此 可 以 用 linalg.eig0 求 解 。 下 面 首先 使 用 椭圆 的 参 
数 方程 计算 某 个 椭圆 上 随机 的 60 个 点 ， 并 引入 一 些 随机 噪声 : 
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3.3.4 奇异 值 分 解 -SVD 


假设 M 是 一 个 m x n 阶 和 矩阵， 存在 一 个 分 解 使 得 :，M = UZV*。 其 中 U 是 m x m 阶 是 和 
半 正 定 m x n 阶 对 角 和 矩阵 ， 而 V*， 即 V 的 共 轿 转 置 ， 是 n x n 阶 西 窃 阵 。 这 样 的 分 解 就 称 作 M 的 


X(t) = Xe +acostcosqp — bsintsinp 
Y(t) = Y. 二 acostsinep 十 bsintcos 


np.random.seed(42) 
t = np.random.uniform(86，2#xnp.pi，66) 


alpha = 6.4 
a=0.5 
b = 1.6 


Xx=1.6+aknp.cos(t)*np.cos(alpha) - b*np.sin(t)*np.sin(alpha) 
y=1.6+aknp.cos(t)*np.sin(alpha) - b*np.sin(t)*np.cos(alpha) 
x += np.random.normal(6，6.65，size=len(x)) 
y += np.random.normal(0, 0.65, size=len(y)) 


@ 当 传递 第 二 个 参数 时 ，eig0 计 算 广义 特征 值 和 向 量 。evectors 中 共有 6 个 特征 向 量 ，@ 将 


这 6 个 特征 向 量 代入 椭圆 方程 中 ， 计 算 平均 误差 ，@ 并 挑选 误差 最 小 的 特征 向 量 作为 椭圆 的 参 
数 p。 图 3-8 显示 了 参数 p 所 表示 的 椭圆 以 及 数据 点 。 


D = np.c_[x**2, x*y, y**2, x, y, np.ones_like(x)] 

A = np.dot(D.T, D) 

C= np.zeros((6, 6)) 

c[[6 1 2]; [2, 1; 6]] = 2, -1, 2 

evalues, evectors = linalg.eig(A, C) 0 

evectors = np.real(evectors) 

err = np.mean(np.dot(D, evectors)**2, 6) © 

p = evectors[:, np.argmin(err) ] © 

print p 

[-8.55214278 8.5586915 -8.23889922 @.54584559 -6.68356449 -8.14852863] 


2.0 w= 
1.5| 
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图 3-8 用 广义 特征 向 量 计算 的 拟 合 椭圆 


奇异 值 分 解 是 线性 代数 中 一 种 重要 的 矩阵 分 解 , 在 信号 处 理 \ 统计 学 等 领域 都 有 


E 阵 ; 也是 


奇异 值 分 解 。z 对 角 线 上 的 元 素 为 M 的 奇异 值 。 通 常 奇异 值 按照 从 大 到 小 的 顺序 排列 。 

奇异 值 的 数学 描述 读 起 来 有 些 难 懂 ， 让 我 们 通过 一 个 实例 说 明 奇 异 值 分 解 的 用 途 。 下 面 的 
例子 对 一 幅 灰 度 图 像 进行 奇异 值 分 解 ， 然 后 从 三 个 分 解 甜 阵 中 提取 奇异 值 较 大 的 部 分 数据 还 原 
原始 图 像 。 首 先 读 入 一 幅 图 像 ， 并 通过 其 红 绿 蓝 三 个 通道 计算 灰 度 图 像 img， 图 像 的 宽 为 375 
个 像素 、 高 为 505 个 像素 。 


r, g, b = np.rollaxis(pl.imread("vinci target.png"), 2).astype(float) 
img = 6.2989 * r + 0.5870 * g + 9.1148 * b 

img. shape 

(565，375) 


调用 scipyjinalg.svd0 对 图 像 矩 阵 进行 奇异 值 分 解 ， 得 到 三 个 分 解 部 分 : 
。 U: 对 应 于 公式 中 的 U。 
es: 对 应 于 公式 中 的 >， 由 于 它 是 一 个 对 角 和 矩阵 ， 只 有 对 角 线 上 的 元 素 非 零 ， 因 此 s 是 一 
个 一 维 数组 ， 保 存 对 角 线 上 的 非 零 元 素 。 
eVh: 对 应 于 公式 中 的 V*。 
下 面 的 程序 查看 这 三 个 数组 的 形状 : 
U, s, Vh = linalg.svd(img) 
U.shape s.shape Vh. shape 


(565，565) (375,) (375, 375) 


s 中 的 每 个 值 与 Vh 的 行 向 量 以 及 中 的 列 向 量 对 应 ， 默 认 按 照 从 大 到 小 的 顺序 排列 ， 它 表 
示 与 其 对 应 的 向 量 的 重要 性 。 由 图 3-9 可 知 s 中 的 奇异 值 大 小 差别 很 大 ,注意 立轴 是 对 数 坐标 系 。 


pl.semilogy(s, lw=3) 


图 339 按 从 大 到 小 排列 的 奇异 值 


| 可 
图 


下 面 的 composite0 选 择 U 和 Vh 中 的 前 n 个 向 量 重新 合成 矩阵 ， 当 用 上 所 有 向 量 时 ， 
合成 的 矩阵 和 原始 矩阵 相同 : 
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def composite(U, s, Vh, n): 
return np.dot(U[:, :n], s[:n, np.newaxis] * Vh[:n, :]) 


print np.allclose(img, composite(U, s, Vh, len(s))) 
True 
下 面 演示 选择 前 10 个 、20 个 以 及 50 个 向 量 合成 时 的 效果 ， 如 图 3-10 所 示 , 可 以 看 到 使 用 
的 向 量 越 多 ， 结 果 就 越 接近 原始 图 像 ; 
jimg16 = composite(U，s，Vh，16) 


img26 = composite(U，s，Vh，26) 
img56 = composite(U，s，Vh，56) 


%array_jimage img; img16; img26; img56 


图 3-10 原始 图 像 以 及 使 用 10 个 、20 个 、50 个 向 量 合成 的 图 像 (从 左 到 右 ) 


3.4 统计 -stats 


与 本 节 内 容 对 应 的 Notebook 为 : 03-scipy/scipy-400-statsipynb。 


SciPy 的 stats 模块 包含 了 多 种 概率 分 布 的 随机 变量 (随机 变量 是 指 概率 论 中 的 概念 ， 不 是 
Python 中 的 变量 )， 随 机 变量 分 为 连续 和 离散 两 种 。 所 有 的 连续 随机 变量 都 是 rv_continuous 的 派 
生 类 的 对 象 ， 而 所 有 的 离散 随机 变量 都 是 rv_discrete 的 派生 类 的 对 象 。 


3.4.1 连续 概率 分 布 
可 以 使 用 下 面 的 语句 获得 stats 模块 中 所 有 的 连续 随机 变量 : 


from scipy import stats 
[k for k, v in stats. dict .items() if isinstance(v, stats.rv_continuous)] 
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变量 的 期 望 值 和 方差 ， 我 们 看 到 默认 情况 下 它 是 一 个 均值 为 0、 方 


['genhalflogistic', 'triang', 


"rayleigh’', 


“betaprime '， 
"gilbrat 
"erlang '， 
“cosjne '， 
"tukeylambda ' ， 
“semicircular ， 
“gengamma ' ， 
“burr' 

“wald ， 
"gausshyper '， 
"levy_stable '， 
‘t's 
'recipinvgauss', 
i 

pa 
“powerlognorm ， 
'"dweibul11'， 
"halfcauchy ， 
“gumbel_ 1 ， 
et 
"hypsecant', 


4 的 数组 的 大 小 。 


'levy', “foldnorm ' ， "genlogistic', 
"lognorm', "anglit', 'truncnorm' , 
“norm ， “nakagami' , "weibul1 min '， 
"logistic', is 'genpareto', 
“dgamma ' ， “pareto ' ， "halflogistic’, 
'ksone', "mielke', UTCX2 二 
"johnsonsu ' ， “powernorm ' ， "powerlaw' ， 
"johnsonsb ' ， “beta ， "gamma ' ， 
'arcsine', ‘maxwell', "invgauss', 
'rice', "vonmises_line', "loglaplace', 
"exponweib"' 'pearson3"', Jem 

'cauchy', ‘truncexpon' , "kstwobign', 
'frechet_1°', 'foldcauchy', "wrapcauchy , 
"genexpon' , "expon', "reciprocal '， 
"lomax', "loggamma' ， "invgamma ' ， 
"1aplace ， “vonmises ' ， "frechet_r', 
mist "gumbel_r', "gompertz', 
"invweibull', “exponpow ， "weibull_max', 
"halfnorm"' , "fatiguelife', :ehi2 

"uniform ， “genextreme '， "alpha', 
"bradford', 'levy_1'] 

连续 随机 变量 对 象 都 有 如 下 方法 : 

e rrvs: 对 随机 变量 进行 随机 取 值 ， 可 以 通过 size 参数 指定 输 生 
。 pdf， 随机 变量 的 概率 密度 函数 。 

e cdf; 随机 变量 的 累积 分 布 函数 ， 它 是 概率 密度 函数 的 积分 。 
e sf; 随机 变量 的 生存 函数 ， 它 的 值 是 1-cdf(0)。 

e ppf: 累积 分 布 函 数 的 反 函 数 。 

e stat; 计算 随机 变量 的 期 望 值 和 方差 。 

e fit: 对 一 组 随机 取样 进行 拟 合 ， 找 出 最 适合 取样 数据 的 概率 密度 函数 的 系数 。 


下 面 以 正规 分 布 为 例 ， 简单 地 介绍 随机 变量 的 用 法 。 下 面 的 请 和 次 得 缺 认 正规 公布 的 县 机 


stats.norm. stats() 
(array(8.6)，array(1.6)) 


norm 可 以 像 函数 一 样 调 
F 正 态 分 布 的 随机 变量 来 说 ， 这 两 个 参数 相当 于 指定 


期 望 值 和 标准 差 ， 


差 为 1 的 随机 变 


， 通 过 loc 和 scale 参数 可 以 指定 随机 变量 的 偏 移 和 缩放 参数 。 对 


标准 差 是 方差 的 算术 


* 方 根 ， 


因此 标准 差 为 20 时 ， 方 差 为 4.0: 
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X= stats.norm(loc=1.6，scale=2.6) 
X.stats() 
(array(1.6)，array(4.6)) 


下 面 调用 随机 变量 X 的 rvs0 方 法 , 得 到 包含 一 万 次 随机 取样 值 的 数组 x, 然后 调用 NumPy 
的 mean0 和 var0 计 算 此 数组 的 均值 和 方差 ， 其 结果 符合 随机 变量 X 的 特性 : 


x = X.rvs(size=16666) # 对 随机 变量 取 16666 个 值 
np.mean(x)，np.var(x) # 期 望 值 和 方差 
(1.8843486567363883，3.8899572813426553) 


也 可 以 使 用 你 0 方法 对 随机 取样 序列 x 进 行 拟 合 ， 它 返回 的 是 与 随机 取样 值 最 吻合 的 随机 
变量 的 参数 : 


stats.norm.fit(x) # 得 到 随机 序列 的 期 望 值 和 标准 差 
(1.6643466567363883，1.9722974626923433) 


在 下 面 的 例子 中 ， 计 算 取 样 值 x 的 直方 图 统计 以 及 累积 分 布 ， 并 与 随机 变量 的 概率 密度 函 
数 和 累积 分 布 函数 进行 比较 。 
@ 其 中 histogram0 对 数组 x 进行 直方 图 统计 ， 它 将 数组 x 的 取 值 范围 分 为 100 个 区 间 ， 并 
统计 x 中 的 每 个 值 落 入 各 个 区 间 的 次 数 。histogram0 返 回 两 个 数组 pdf 和 t， 其 中 pdf 表示 各 个 区 
间 的 取样 值 出 现 的 频数 ， 由 于 normed 参数 为 Tue， 因此 pdf 的 值 是 正规 化 之 后 的 结果 ， 其 结果 
应 与 随机 变量 的 概率 密度 函数 一 致 。 
@t 表 示 区 间 ， 由 于 其 中 包括 区 间 的 起 点 和 终点 ， 因 此 t 的 长 度 为 101。 计 算 每 个 区 间 的 中 
间 值 ， 然 后 调用 X.pdf(D 和 X.cdf() 计 算 随 机 变量 的 概率 密度 函数 和 累积 分 布 函 数 的 值 ， 并 与 统 
计 值 比较 。@ 计 算 样本 的 累积 分 布 时 ， 需 要 与 区 间 的 大 小 相 乘 ， 这 样 才能 保证 其 结果 与 累积 分 
布 函数 相同 。 


pdf, t = np.histogram(x，bins=166，normed=True) © 

t= (t[:-1] + t[1:]) * 0.5 © 

cdf = np.cumsum(pdf) * (t[1] - t[6]) © 

p_error = pdf - X.pdf(t) 

Cc_error = cdf - X.cdf(t) 

print "max pdf error: {}, max cdf error: {}".format( 
np.abs(p_error).max(), np.abs(c_error).max()) 

max pdf error: 6.6217211429624，max cdf error: 8.6269887986472 


图 3-11( 左 ) 显 示 了 概率 密度 函数 和 直方 图 统计 的 结果 ， 可 以 看 出 二 者 是 一 致 的 。 右 图 显示 
了 随机 变量 和 的 累积 分 布 函数 和 数组 pdf 的 累加 结果 。 


0.25 12, 
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图 3-11 正 态 分 布 的 概率 密度 函数 ( 左 ) 和 累积 分 布 函 数 ( 右 ) 


有 些 随机 分 布 除了 loc 和 scale 参数 之 外 ， 还 需要 额外 的 形状 参数 。 例 如 伽 玛 分 布 可 用 于 描 
述 等 待 k 个 独立 随机 事件 发 生 所 需 的 时 间 ，k 就 是 伽 玛 分 布 的 形状 参数 。 下 面 计算 形状 参数 k 
为 1 和 2 时 的 伽 玛 分 布 的 期 望 值 和 方差 ; 


print stats.gamma.stats(1.6) 
print stats.gamma.stats(2.9) 
(array(1.6)，array(1.6)) 
(array(2.6)，array(2.6)) 


伽 玛 分 布 的 尺度 参数 9 和 随机 事件 发 生 的 频率 相关 ， 由 scale 参数 指定 : 


stats.gamma.stats(2.9，scale=2) 
(array(4.9)，array(8.9)) 


根据 伽 玛 分 布 的 数学 定义 可 知 其 期 望 值 为 k9, 方差 为 k8?。 上 面 的 程序 验证 了 这 两 个 公式 。 
当 随机 分 布 有 额外 的 形状 参数 时 ， 它 所 对 应 的 rvs0、pdf0 等 方法 都 会 增加 额外 的 参数 来 接 
收 形状 参数 。 例 如 下 面 的 程序 调用 rvs0 对 k = 2、8 = 2 的 伽 玛 分 布 取 4 个 随机 值 : 


x = stats.gamma.rvs(2, scale=2, size=4) 
x 
array([ 2.47613445, 1.93667652, 8.85723572, 9.49688692]) 


接 下 来 调用 pdf0 查 看 与 上 面 4 个 随机 值 对 应 的 概率 密度 : 


stats.gamma.pdf(x, 2, scale=2) 
array([ 8.17948513, 8.18384555, 8.13966273， 6.62662186]) 


也 可 以 先 创建 将 形状 参数 和 尺度 参数 固定 的 随机 变量 ， 然 后 再 调用 其 pdf0 计 算 概率 密度 : 


X = stats.gamma(2, scale=2) 
X.pdf(x) 
array([ 8.17948513, 8.18384555， 8.13966273， 6.62662186]) 


3.4.2 ”离散 概率 分 布 
当 分 布 函数 的 值 域 为 离散 时 我 们 称 之 为 离散 概率 分 布 。 例 如 投掷 有 六 个 面 的 从 子 时 ， 只 能 
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获得 1 到 6 的 整数 ， 因 此 所 得 到 的 概率 分 布 为 离散 的 。 对 于 离散 随机 分 布 ， 通 常 使 用 概率 质量 
函数 (PME) 描 述 其 分 布 情况 。 

在 stats 模块 中 所 有 描述 离散 分 布 的 随机 变量 都 从 rv_discrete 类 继承 ， 也 可 以 直接 
rv_discrete 类 自 定义 离散 概率 分 布 。 例 如 假设 有 一 个 不 均匀 的 山子 ， 它 的 各 点 出 现 的 概率 不 相 
等 。 我 们 可 以 用 下 面 的 数组 x 保存 民 子 的 所 有 可 能 值 ， 数 组 p 保 存 每 个 值 出 现 的 概率 : 


x = range(1, 7) 
p = (0.4, 8.2, 0.1, 8.1, 6.1, 8.1) 


然后 创建 表示 这 个 特殊 山子 的 随机 变量 dice, 并 调用 其 rvs0 方 法 投 撕 此 般 子 20 次 , 获得 符 
合 概率 p 的 随机 数 : 


dice = stats.rv_discrete(values=(x, p)) 
dice.rvs(size=20) 
RE 


下 面 我 们 用 程序 验证 概率 论 中 的 中 心 极限 定理 : 大 量 相互 独立 的 随机 变量 ， 其 均值 的 分 布 
以 正 态 分 布 为 极限 。 我 们 计算 上 面 那 个 特殊 山子 投 找 50 次 的 平均 值 ， 由 于 每 次 投掷 贷 子 都 可 
以 看 作 一 个 独立 的 随机 事件 ,因此 投掷 50 次 的 平均 值 可 以 看 作 “ 大 量 相互 独立 的 随机 变量 ”， 
其 平均 值 的 分 布 应 该 十 分 接近 正 态 分 布 。 仍 然 通过 rvs0 获 得 取样 值 , 其 结果 是 一 个 形状 为 (20000， 
50) 的 数组 ， 沿 着 第 一 轴 计 算 每 行 的 平均 值 ， 得 到 samples_mean: 


np.random.seed(42) 
samples = dice.rvs(size=(26666，56)) 
samples_mean = np.mean(samples, axis=1) 


3.4.3 核 密 度 估计 


在 上 面 的 例子 中 ， 由 于 每 个 取样 都 是 离散 的 ， 因 此 其 平均 值 也 是 离散 的 ， 对 这 样 的 数据 进 
行 直方 图 统计 很 容易 出 现 许多 离散 点 恰巧 聚集 到 同一 区 间 的 现象 。 为 了 更 平滑 地 显示 样本 的 概 
率 密度 ， 可 以 使 用 kde.gaussian_kde0 进 行 核 密度 估计 。 在 图 3-12 中 ， 直 方 图 统计 的 结果 有 很 大 
的 起 伏 ， 而 核 密 度 估计 与 拟 合 的 正 态 分 布 十 分 接近 ， 因 此 验证 了 中 心 极限 定理 。 


_，bins，step = pl.hist( 
samples_mean，bins=160，normed=True，histtype="step"，label=u" 直 方 图 统计 ") 

kde = stats.kde.gaussian kde(samples_mean) 

x = np.linspace(bins[6]，bins[-1]，166) 

pl.plot(x，kde(x)，label=u" 核 密度 估计 ") 

mean, std = stats.norm.fit(samples_mean) 

pl.plot(x, stats.norm(mean, std).pdf(x)，alpha=8.8，label=u" 正 态 分 布 拟 合 " 

pl.legend() 


一 核 密度 估计 
一 正 态 分 布 拟 合 
[直方 图 统计 


1.5 2.0 25 3.0 35 4.0 
图 3-12 核 密度 估计 能 更 准确 地 表示 随机 变量 的 概率 密度 函数 


核 密度 估计 算法 在 每 个 数据 点 处 放置 一 条 核 函 数 曲线 , 最 终 的 核 密度 估计 就 是 所 有 这 些 核 
函数 曲线 的 车 加。gaussian_kde0 的 核 函 数 为 高 斯 曲线 ， 其 bw_method 参数 决定 核 函数 的 宽度 ， 
即 高 斯 曲线 的 方差 。bw_method 参数 可 以 是 如 下 几 种 情况 : 

@ 当 为 scott、silverman' 时 将 采用 相应 的 公式 根据 数据 个 数 和 维 数 决定 核 函 数 的 宽度 系数 。 

@ 当 为 函数 时 将 调用 此 函数 计算 曲线 宽度 系数 ， 函 数 的 参数 为 gaussian_kde 对 象 。 

e 当 为 数值 时 ， 将 直接 使 用 此 数值 作为 宽度 系数 。 

核 函数 的 方差 由 数据 的 方差 和 宽度 系数 决定 。 

下 面 的 程序 比较 宽度 系数 对 核 密度 估计 的 影响 。 当 宽度 系数 较 小 时 ， 可 以 看 到 在 三 个 数据 
点 处 的 高 斯 曲线 的 峰值 ， 而 当 宽 度 逐 渐变 大 时 ， 这 些 峰 值 就 合并 成 一 个 统一 的 峰值 了 。 


for bw in [8.2, 8.3, 8.6, 1.08]: 

kde = stats.gaussian_kde([-1, 8, 1], bw_method=bw) 

x = np.linspace(-5，5，1666) 

y = kde(x) 

pl.plot(x, y, lw=2, label="bw={}".format(bw), alpha=06.6) 
pl.legend(loc="best") 


图 3-13 显示 bw_method 参数 越 大 ， 核 密度 估计 曲线 越 平滑 。 
07 
0.6 上 
0.5 上 


0.4 上 


图 3-13 bw_method 参数 越 大 ， 核 密度 估计 曲线 越 平 滑 
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3.4.4 二 项 分 布 、 泊 松 分 布 、 仰 玛 分 布 


本 节 用 几 个 实例 程序 对 概率 论 中 的 二 项 分 布 、 泊 松 分 布 以 及 伽 玛 分 布 进行 一 些 实验 和 
讨论 。 

二 项 分 布 是 最 重要 的 离散 概率 分 布 之 一 。 假 设 有 一 种 只 有 两 个 结果 的 试验 ， 其 成 功 概率 为 
p， 那 么 二 项 分 布 描述 了 进行 n 次 这 样 的 独立 试验 , 成 功 k 次 的 概率 。 二 项 分 布 的 概率 质量 函数 
公式 如 下 : 


f(k;n,p) = Rd = 
例如 ， 可 以 通过 二 项 分 布 的 概率 质量 公式 计算 投掷 5 次 仍 子 出 现 3 次 6 点 的 概率 。 投 掷 一 
次 般 子 ， 点 数 为 6 的 概率 ( 即 试验 成 功 的 概率 ) 为 p = 1/6， 试 验 次 数 为 n = 5。 使 用 二 项 分 布 的 
概率 质量 函数 pmf0 可 以 很 容易 计算 出 现 k 次 6 点 的 概率 。 和 概率 密度 函数 pdf0 类 似 ，pmf0 的 
第 一 个 参数 为 随机 变量 的 取 值 ， 后 面 的 参数 为 描述 随机 分 布 所 需 的 参数 。 对 于 二 项 分 布 来 说 ， 
2 数 分 别 为 n 和 p, 而 取 值 范围 则 为 0 到 n 之 间 的 整数 。 下 面 的 程序 计算 k 为 0 到 6 时 对 应 的 概 


[3 


stats.binom.pmf(range(6)，5，1/6.6) 
array([ 4.81877572e-81, 4.61877572e-61， ”1.668751629e-61， 
3.21562658e-62， ”3.21562658e-63， 1.28686823e-64]) 


由 结果 可 知 : 出 现 0 或 1 次 6 点 的 概率 为 40.2%， 而 出 现 3 次 6 点 的 概率 为 3.215%。 

在 二 项 分 布 中 ,如 果 试 验 次 数 n 很 大 ,而 每 次 试验 成 功 的 概率 p 很 小 , 乘积 np 比较 适中 ， 
那么 试验 成 功 次 数 的 概率 可 以 用 泊 松 分 布 近似 描述 。 

在 泊 松 分 布 中 使 用 和 描述 单位 时 间 ( 或 单位 面积 ) 中 随机 事件 的 平均 发 生 率 。 如 果 将 二 项 分 布 
中 的 试验 次 数 n 看 作 单位 时 间 中 所 做 的 试验 次 数 , 那么 它 和 事件 出 现 的 概率 p 的 乘积 就 是 事件 的 
平均 发 生 率 和 ， 即 和 = n. p。 泊 松 分 布 的 概率 质量 函数 公式 如 下 : 

eAk 
(kN) = 

下 面 的 程序 分 别 计算 三 项 分 布 和 泊 松 分 布 的 概率 质量 函数 , 结果 如 图 3-14 所 示 。 可 以 看 出 
当 n 足 够 大 时 ， 二 者 是 十 分 接近 的 。 程 序 中 的 事件 平均 发 生 率 X 恒 等 于 10。 根据 二 项 分 布 的 试验 
次 数 n， 计 算 每 次 事件 出 现 的 概率 p = A/n。 


lambda_ = 16.6 
x = np.arange(26) 


n1, n2 = 166，1666 
y_binom n1 = stats.binom.pmf(x, n1, lambda_ / n1) 


y_binom n2 = stats.binom.pmf(x, n2, lambda_ / n2) 
y_poisson = stats.poisson.pmf(x, lambda ) 


print np.max(np.abs(y_binom n1 - possion)) 
print np.max(np.abs(y_binom n2 - possion)) 
68.66675531116335 
68.666636175464978 


poisson 


L 
10 
次 数 次 数 


图 3-14 当 n 是 够 大 时 二 项 分 布 和 泊 松 分 布 近似 相等 


泊 松 分 布 适合 描述 单位 时 间 内 随机 事件 发 生 的 次 数 的 分 布 情况 。 例如 某 个 设施 在 一 定时 间 
内 的 使 用 次 数 、 机 器 出 现 故 障 的 次 数 、 自 然 灾害 发 生 的 次 数 等 。 
为 了 加 深 记 


中 左 图 的 观察 时 间 为 1000 秒 ， 而 右 图 的 观察 时 间 为 50000 秒 。 可 以 看 出 观察 时 间 越 长 ,每 秒 内 
事件 发 生 的 次 数 越 符合 泊 松 分 布 。 


np.random.seed(42) 


def sim poisson(lambda_, time): 
t = np.random.uniform(8, time, size=lambda_ * time) © 
count, time edges = np.histogram(t, bins=time, range=(8, time)) ©@ 
dist, count_edges = np.histogram(count, bins=20, range=(0, 28), density=True) © 
x = count_edges[:-1] 
poisson = stats.poisson.pmf(x, lambda_ ) 
return x, poisson, dist 


lambda_ = 16 
times = 1600,566606 
x1, poisson1, dist1 


sim poisson(lambda_, times[8]) 

x2, poisson2, dist2 = sim poisson(lambda_ , times[1]) 
max_error1 = np.max(np.abs(dist1 - poisson1)) 

max_error2 = np.max(np.abs(dist2 - poisson2)) 

print "time={}, max_error={}".format(times[8], max_error1) 
print "time={}, max_error={}".format(times[1], max_error2) 


者 对 泊 松 分 布 概念 的 理解 ， 下 面 我 们 使 用 随机 数 模拟 泊 松 分 布 ， 并 与 概率 质量 
函数 进行 比较 ， 结 果 如 图 3-15 所 示 。 图 中 ， 每 秒 内 事件 的 平均 发 生 次 数 为 10， 即 A= 10。 其 
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time=1666，max_error=8.619642362616 
time=56666，max_error=8.66179861289496 


time = 1000 time = 50000 


图 3-15 模拟 泊 松 分 布 


@ 可 以 用 Numpy 的 随机 数 生成 函数 uniform0 产 生平 均 分 布 于 0 到 time 之 间 的 lambda_*time 
个 事件 所 发 生 的 时 刻 。@ 用 histogram0 可 以 统计 数组 t 中 每 秒 之 内 的 事件 发 生 的 次 数 count， 根 
据 泊 松 分 布 的 定义 ，count 数 组 中 的 数值 的 分 布 情况 应 该 符合 泊 松 分 布 。@ 接 下 来 统计 事件 次 数 
在 0 到 20 区间 内 的 概率 分 布 。 当 histogram0 的 density 参数 为 True 时 ， 结 果 和 概率 质量 函数 
相等 。 

还 可 以 换个 角度 看 随机 事件 的 分 布 问题 。 我 们 可 以 观察 相 邻 两 个 事件 之 间 的 时 间 间 隔 的 分 
布 情况 ， 或 者 隔 k 个 事件 的 时 间 间 隔 的 分 布 情况 。 根 据 概率 论 ， 事 件 之 间 的 时 间 间 隔 应 符合 向 
玛 分 布 ， 由 于 时 间 间 隔 可 以 是 任意 数值 ， 因 此 伽 玛 分 布 是 连续 概率 分 布 。 伽 玛 分 布 的 概率 密度 
函数 公式 如 下 ， 它 描述 第 k 个 事件 发 生 所 需 的 等 待 时 间 的 概率 分 布 。F(9 是 伽 玛 函数 ， 当 k 为 
整数 时 ， 它 的 值 和 k 的 阶乘 k! 相 等 。 


f(xX; k,X) = 
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XGc-DXkeC-AX) 

rT(k) 

下 面 的 程序 模拟 了 事件 的 时 间 间 隔 的 伽 玛 分 布 ， 结 果 如 图 3-16 所 示 。 图 中 的 观察 时 间 为 
1000 秒 , 平均 每 秒 产生 10 个 事件 。 左 图 中 k = 1, 它 表 示 相 邻 两 个 事件 间 的 间隔 的 分 布 , 而 k = 2 
则 表示 相隔 一 个 事件 的 两 个 事件 间 的 间隔 的 分 布 ， 可 以 看 出 它们 都 符合 伽 玛 分 布 。 


def sim gamma(lambda_, time, k): 
t = np.random.uniform(86，time，size=lambda_* time) © 
t.sort() ©@ 
interval = t[k:] - t[:-k] © 
dist, interval edges = np.histogram(interval，bins=166，density=True) @ 
x = (interval_edges[1:] + interval edges[:-1])/2 ©@ 
gamma = stats.gamma.pdf(x, k, scale=1.6/lambda ) © 
return x, gamma, dist 


lambda_ = 19.9 


time = 1666 
ES 


x1, gammal, dist1 = sim gamma(lambda_, time, ks[8]) 
x2, gamma2, dist2 = sim gamma(lambda_, time, ks[1]) 


概率 密度 


04 0.6 a 
时 间 间 隔 时 间 间 隔 


0.8 


图 3-16 模拟 伽 玛 分 布 


@ 首 先 在 1000 秒 之 内 产生 10000 个 随机 事件 发 生 的 时 刻 。 因此 事件 的 平均 发 生 次 数 为 每 秒 


10 次 。@ 为 了 计算 事件 前 后 和 


I 时 间 间 隔 ， 需 要 先 对 随机 时 刻 进行 排序 ，@ 然 后 再 计算 k 个 事件 


之 间 的 时 间 间 隔 。@ 对 该 时 间 间 隔 调用 histogram0 进 行 概率 统计 ， 设 置 density 为 True 可 以 直接 


计算 概率 密度 。histogram0 返 


可 的 第 二 个 值 为 统计 区 间 的 边界 ，@ 接 下 来 用 gamnmapdft0 计 算 爷 


玛 分 布 的 概率 密度 时 ， 使 用 各 个 区 间 的 中 值 进 行 计算 。pdf0 的 第 二 个 参数 为 k 值 ，scale 参数 


为 1AA。 
接 下 来 我 们 看 一 道 关于 1 
别 是 5 分 钟 和 10 分 钟 ， 某 乘 


加 玛 分 布 的 概率 题 : 有 A 和 B 两 路 公交 车 ， 平 均 发 车 间隔 时 间 分 
人 点 S 可 以 任意 选择 两 者 之 一 乘坐 ， 假 设 A 和 B 到 达 S 的 时 


刻 无 法 确定 ， 计 算 该 乘客 的 3 


均等 待 公交 车 的 时 间 。 


可 以 将 “假设 A 和 B 到 达 S et ”理解 为 公交 车 到 达 S 站 点 的 时 刻 是 完全 随机 


的 ， 因 此 单位 时 间 之 内 到 达 S 站 点 的 公交 车 次 数 符合 泊 松 分 布 ， 而 前 后 两 辆 公交 车 的 时 间 差 符 


合 k=1 的 伽 玛 分 布 。 下 面 我 人 


T = 166666 
Acount =T/5 
B_count =T/ 16 


Atime = np.random.unifol 
B_time = np.random.unifol 


bus time = np.concatenat: 
bus_time.sort() 


N = 266666 


] 先 用 随机 数 模拟 的 方法 求 出 近似 解 ， 然 后 推导 出 解 的 公式 。 


rm(6，T，A_count) © 
rm(86，T，B_count) 


e((A time, B time)) © 
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passenger_time = np.random.uniform(bus_time[6]，bus _ time[-1]，N) © 


idx = np.searchsorted(bus time, passenger time) @ 
np.mean(bus_time[idx] - passenger time) +* 66 昌 
199.12512768644649 


模拟 的 总 时 间 为 工分 钟 ， 在 这 段 之 间 之 内 ， 应 该 有 A_count 次 A 路 公交 车 和 B_count 次 B 
路 公交 车 到 达 S 站 点 。@ 可 以 用 均匀 分 布 uniform0 产 生 两 路 公交 车 到 达 S 站 点 的 时 刻 ，@ 将 这 
两 个 保存 时 刻 的 数组 连接 起 来 ， 并 进行 排序 。 

@@ 在 第 一 趟 和 最 后 一 趟 公交 车 的 到 达 时 间 之 间 ， 产 生 乘客 随机 到 达 S 站 点 的 时 刻 数组 。@ 
在 已 经 排序 的 公交 车 到 达 时 刻 数组 bus_time 中 使 用 二 分 法 搜索 每 个 乘客 到 达 时 刻 所 在 的 下 标 数 
组 idx。@bus_timefidx] 就 是 乘客 到 达 车 站 之 后 第 一 个 到 达 车 站 的 公交 车 的 时 刻 ， 因 此 只 需要 计 
算 其 差 值 ， 并 求 平均 值 即 可 。 通 过 随机 数 模 拟 得 出 的 平均 等 待 时 间 约 为 200 秒 。 

将 A 和 B 两 路 汽车 一 起 考虑 ,前 后 两 个 车 次 的 平均 间隔 也 为 200 秒 ,这 似乎 有 些 不 可 思议 ， 
直觉 上 我 们 可 能 期 待 一 个 小 于 平均 间隔 的 等 待 时 间 。 


np.mean(np.diff(bus_time)) * 66 
199.98268112933918 


这 是 因为 存在 观察 者 偏差 ， 即 会 有 更 多 的 乘客 出 现在 时 间 间 隔 较 长 的 时 间 段 。 我 们 可 以 想 
象 如 果 公交 车 因为 事故 晚点 很 长 时 间 ， 那 么 通常 车 站 上 会 挤 满 等 待 的 人 。 人 3-17( 上 ) 中 ， 蓝 
色 坚 线 代表 公交 车 的 到 站 时 刻 ， 红 色 竖 线 代表 乘客 的 到 站 时 刻 。 可 以 看 出 ， 两 条 蓝 色 坚 线 之 间 
的 距离 越 大 ， 其 间 的 红色 坚 线 就 会 越 多 。 图 3-17( 下 ) 的 模 轴 是 前 后 两 辆 公交 车 二 纵 轴 
是 这 段 时 间 差 之 内 的 等 待人 数 ， 可 以 看 出 二 者 成 正比 关系 。 


0 5 10 15 20 25 30 35 40 
公交 车 的 时 间 间 隔 
图 3-17 观察 者 偏差 


通过 以 上 分 析 ， 不 难 写 出 计算 平均 等 待 时 间 的 计算 公式 : 


太子 xfCOdx 
所 xf(x)dx 


在 公式 中 ，x 是 两 辆 公交 车 之 间 的 间隔 时 间 ，f(x)dx 是 时 间 间 隔 为 x 出 现 的 概率 。 由 于 观察 
者 效应 ,乘客 出 现在 较 长 时 间 间 隔 的 概率 也 较 大 , 因此 xf(x)dx 可 以 看 作 与 乘客 出 现在 时 间 间 隔 
为 x 时 段 的 概率 成 比例 的 量 ， 分 母 的 积分 将 其 归 一 化 。 而 分 子 中 的 x2 是 在 该 时 间 间 隔 段 到 达 
车 站 所 需 的 平均 等 待 时 间 。 下 面 我 们 计算 该 公式 ， 由 图 3-17 可 知 ， 公 交 车 的 间 阳 儿 乎 不 会 超过 
30 分 钟 ， 因 此 虽然 公式 中 的 积分 上 限 为 +co， 但 在 实际 计算 时 只 需要 指定 一 个 较 大 的 数 即 可 。 
在 本 章 后 续 的 小 节 中 会 详细 介绍 数值 积分 quad0 的 用 法 。 


from scipy import integrate 
t = 19.6 / 3 # 两 辆 公交 车 之 间 的 平均 时 间 间 陋 

bus_interval = stats.gamma(1, scale=t) 

n, _ = integrate.quad(lambda x: @.5 * x * x * bus_interval.pdf(x), 6, 1660) 


d, _ = integrate.quad(lambda x: x * bus_interval.pdf(x)，8，1666) 
n/d*60 
266.6 


3.4.5 “学 生 上 -分 布 与 1 检验 
从 均值 为 h 的 正 态 分 布 中 ， 抽 取 有 n 个 值 的 样本 ， 计 算 样本 均值 x 和 样本 方差 s; 


二 十 
X = 一 一， 


n 
第 
‘ _2 
,ss i 习 


则 t =。= EE 符合 df = n 一 1 的 学 生 t 分 布 。t 值 是 抽 选 的 样本 的 平均 值 与 整体 样本 的 期 望 值 


之 差 经 过 正规 化 之 后 的 数值 ， 可 以 用 来 描述 抽取 的 样本 与 整体 样本 之 间 的 差异 。 

下 面 的 程序 模拟 学 生 t+ 分 布 (参见 图 3-18), @ 创 建 一 个 形状 为 (100000, 10) 的 正 态 分 布 的 随机 
数 数组 ，@ 使 用 上 面 的 公式 计算 t 值 ，@ 统 计 t 值 的 分 布 情况 并 与 statst 的 概率 密度 函数 进行 比 
较 。 如 果 我 们 使 用 10 个 样本 计算 t 值 ， 则 它 应 该 符合 df=9 的 学 生 t 分 布 。 


mu = 0.9 

n = 16 

samples = stats.norm(mu).rvs(size=(166666，n)) © 

t_samples = (np.mean(samples, axis=1) - mu) / np.std(samples, ddof=1, axis=1) + n**0.5 四 
sample dist, x = np.histogram(t_samples, bins=166, density=True) © 

x XE] 

t dist = stats.t(n-1).pdf(x) 

print “max error:", np.max(np.abs(sample dist - t dist)) 


语 糖 半 启 举 -Ad!IoS 


147 


，Python 科学 计算 (第 2 版 ) 


max error: 68.66658734287935 


0.40 T T T 


L L 


-4 =2 0 2 4 
图 3-18 模拟 学 生 t 分 布 


图 3-19 绘制 尼 为 5 和 39 的 概率 密度 函数 和 生存 函数 ， 当 由 增 大 时 ， 学 生 t 分 布 趋向 于 正 
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图 3-19 当 生 增 大 时 ， 学 生 t 分 布 趋向 于 正 态 分 布 


学 生 t 分 布 可 以 用 于 检测 样本 的 平均 值 ， 下 面 我 们 从 一 个 期 望 值 为 1 的 正 态 分 布 的 随机 变 
量 中 取 30 个 数值 : 
n = 39 


np.random.seed(42) 
s = stats.norm.rvs(loc=1，scale=6.8，size=n) 


我 们 建立 整体 样本 的 期 望 值 为 05 的 零 假 设 ， 并 用 statsttest_lsamp0 检 验 零 假 设 是 否 能 够 被 
推翻 。stats.ttest_lsamp0 返 回 的 第 一 个 值 为 使 用 前 述 公式 计算 的 t 值 , 第 二 个 值 被 称 为 p 值 。 当 p 
值 小 于 0.05 时 ， 通 常 我 们 认为 零 假设 不 成 立 。 因 此 下 面 的 测试 表明 我 们 可 以 拒绝 整体 样本 的 期 


望 值 为 0.5 的 假设 。 
零 假设 


在 统计 学 中 ， 零 假设 或 虚无 假设 (null hypothesis) 是 做 统计 检验 时 的 一 类 假设 。 零 假设 的 内 
容 一 般 是 希望 被 证 明 为 错误 的 假设 或 是 需要 着 重 考虑 的 假设 。 
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t= (np.mean(s) - 8.5) / (np.std(s, ddof=1) / np.sqrt(n)) 
print t, stats.ttest 1samp(s, 0.5) 
2.65858434688 (2.6585843468822241,8.812637782257891229) 


下 面 我 们 检验 期 望 值 是 否 为 1.0, 由 于 p 值 大 于 0.05, 我 们 不 能 推翻 期 望 值 为 10 的 零 假 设 ， 
但 这 并 不 意味 着 可 以 接受 该 假设 ， 因 为 期 望 值 为 09 的 假设 对 应 的 p 值 也 大 于 0.05， 甚 至 比 1.0 
的 t 值 还 大 。 

print (np.mean(s) - 1) / (np.std(s, ddof=1) / np.sqrt(n)) 

print stats.ttest 1samp(s, 1), stats.ttest 1samp(s, 8.9) 


-1.14561736764 
(-1.1456173676383393，8.26156414618861477) (-9.38429762545421962，8.76356191834252625) 


通过 ttest_lsamp0 计 算 的 p 值 就 是 图 3-20 中 红色 部 分 的 面积 。 可 以 这 样 理解 p 值 的 含义 : 
如 果 随 机 变量 的 期 望 值 真 的 和 假设 的 相同 ， 那 么 从 这 个 随机 变量 中 随机 抽取 n 个 数值 ， 其 t 值 
比 测试 样本 的 t 值 还 极端 (绝对 值 大 ) 的 可 能 性 为 p。 因 此 当 p 很 小 时 ， 我 们 可 以 推断 假设 不 太 可 
能 成 立 。 反 过 来 当 p 值 较 大 时 , 则 不 能 推翻 零 假设 , 注意 不 能 推翻 假设 并 不 代表 能 接受 该 假设 。 


T 


-4 < 0 汪 4 
图 3-20 红色 部 分 为 ttest_lsamp0 计 算 的 p 值 


拿 上 面 期 望 值 为 0.5 的 测试 为 例 ， 如果 整体 样本 的 期 望 值 真 的 是 0.5， 那 么 抽取 到 t 值 大 于 
2.65858 或 小 于 -2.65858 的 样本 的 概率 为 0.0126377。 由 于 这 个 概率 太 小 , 因此 整体 样本 的 期 望 值 
应 该 不 是 05。 也 可 以 这 样 理 解 : 如果 整体 样本 的 期 望 值 为 05， 那 么 随机 抽取 比 s 更 极端 的 样 
本 的 概率 为 0.0126377。 


x = np.linspace(-5，5，566) 

y = stats.t(n-1).pdf(x) 

plt.plot(x, y, lw=2) 

t, p= stats.ttest 1samp(s, 0.5) 

mask = x > np.abs(t) 

plt.fill between(x[mask], y[mask], color="red", alpha=08.5) 
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只 


与 样本 的 t+ 值 g 进行 绝对 值 大 小 比较 ， 


mask = x < -np.abs(t) 

plt.fill between(x[mask], y[mask], color="red", alpha=8.5) 
plt.axhline(color="k", lw=08.5) 

plt.xlim(-5, 5) 


下 面 用 scipy.integrate.trapz0 积 分 验证 p 值 ， 由 于 左右 两 块 红 色 面 积 是 相等 的 ， 下 面 的 积分 


只 需要 计算 其 中 一 块 的 面积 : 


from scipy import integrate 

x = np.linspace(-16，16，166666) 

y = stats.t(n-1).pdf(x) 

mask = x >= np.abs(t) 
integrate.trapz(y[mask], x[mask])*2 
8.612633433767685974 


下 面 我 们 用 随机 数 验 证 前 面 计算 的 p 值 ,我们 创建 m 组 随机 数 , 每 组 都 有 n 个 数值 ， 然 后 
计算 假设 总 体 样本 期 望 值 为 0.5 时 每 组 随机 数 对 应 的 t 值 ty， 它 是 一 个 长 度 为 m 的 数组 。 将 tr 


极端 组 出 现 的 概率 ， 可 以 看 到 它 和 p 值 是 相同 的 。 


m = 206666 

mean = 6.5 

r= stats.norm.rvs(loc=mean, scale=0.8, size=(m, nN)) 

ts = (np.mean(s) - mean) / (np.std(s, ddof=1) / np.sqrt(n)) 

tr = (np.mean(r, axis=1) - mean) / (np.std(r, ddof=1, axis=1) / np.sqrt(n)) 
np.mean(np.abs(tr) > np.abs(ts)) 

8.612695 


当 |tx| > |ts| 时 ， 就 说 明 该 组 随机 数 比 样本 更 极 


端 ， 统 计 


如 果 sl 和 s2 是 两 个 独立 的 来 自 正 态 分 布 总 体 的 样本 ， 可 以 通过 ttest_ind0 检 验 这 两 个 总 体 
的 均值 是 否 存 在 差异 。 通 过 equal_var 参数 指定 两 个 总 体 的 方差 是 否 相 同 。 在 下 面 的 例子 中 ，@ 
由 于 sl 和 s2 样 本 来 自 不 同方 差 的 总 体 ， 因 此 equal_var 参数 为 False。 由 于 p < 0.05， 因 此 认为 


两 个 总 体 的 均值 存在 差异 。@s2 和 s3 来 自 相同 方差 


np.random.seed(42) 


s1 = stats.norm.rvs(loc=1, scale=1.0, size=20) 
5s2 = stats.norm.rvs(loc=1.5, scale=0.5, size=20) 


s3 = stats.norm.rvs(loc=1.5, scale=0.5, size=25) 


print stats.ttest_ind(s1, s2, equal var=False) © 
print stats.ttest_ind(s2, s3, equal var=True) © 


的 总 体 ， 因 此 equal_var 参数 为 True， 所 得 
. 的 p 值 很 大 ， 因 此 无 法 推翻 零 假 设 ， 也 就 无 法 否定 两 个 总 体 的 均值 相同 的 零 假 设 。 


(-2.2391476627176755，68.633256866886743665) 
(-@8.59466985218561719，68.55518658758165393) 


3.4.6 卡 方 分 布 和 卡 方 检验 


上 F 方 分 布 ?) 是 概率 论 与 统计 学 中 常用 的 一 种 概率 分 布 。k 个 独立 的 标准 正 态 分 布 变量 的 
平方 和 服从 自由 度 为 k 的 卡 方 分 布 。 下 面 通 过 随机 数 验 证 该 分 布 ， 结 果 如 图 3-21 所 示 : 


a = np.random.normal(size=(366669，4)) 
cs = Np.sum(a**2, axis=1) 


sample dist, bins = np.histogram(cs, bins=180, range=(8, 28), density=True) 
x = 0.5 * (bins[:-1] + bins[1:]) 

chi2 dist = stats.chi2.pdf(x, 4) 

print “max error:", np.max(np.abs(sample dist - chi2 dist)) 

max error: 9.06346194486328 
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图 3-21 使 用 随机 数 验 证 卡 方 分 布 


此 方 分 布 可 以 用 来 描述 这 样 的 概率 现象 :袋子 里 有 5 种 颜色 的 球 , 抽 到 每 种 球 的 概率 相同 ， 
从 中 选 N 次 ,并 统计 每 种 颜色 的 次 数 0i。 则 下 面 的 x 符合 自由 度 为 4 的 卡 方 分 布 ,其 中 E = N/5 为 
每 种 球 被 抽 选 的 期 望 次 数 : 


(01 — E)? 
Rs 尼 


下 面 用 程序 模拟 这 个 过 程 ， 结 果 如 图 3-22 所 示 。@ 首 先 调用 randint0 创 建 从 0 到 5 的 随机 
数 ， 其 结果 ball ids 的 第 0 轴 表 示 实 验 次 数 ， 第 1 轴 为 每 次 实验 抽取 的 100 个 球 的 编号 。@ 使 
bincount0 统 计 每 次 实验 中 每 个 编号 出 现 的 次 数 ， 由 于 它 不 支持 多 维 数 组 ， 因 此 这 里 使 月 
apply_along_axis0 对 第 1 轴 上 的 数据 循环 调用 bincount0。 为 了 保证 每 行 的 统计 结果 的 长 度 相同 ， 
设置 minlength 参数 为 5，apply_along_axis0 会 将 所 有 关键 字 参 数 传递 给 进行 实际 运算 的 函数 。 @ 
使 用 上 面 的 公式 计算 x? 统 计量 cs2，@ 并 用 gaussian_kde0 计 算 cs2 的 分 布 情况 。 
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repeat_count = 66666 
ny k= 100, 5 


np.random. seed(42) 

ball ids = np.random.randint(8, k, size=(repeat count, n)) © 

counts = np.apply_along axis(np.bincount, 1, ball ids, minlength=k) ©@ 
Cs2 = np.sum((counts - n/k)**2.0/(n/k), axis=1) © 

k = stats.kde.gaussian kde(cs2) @ 

x = np.linspace(06, 106, 280) 

pl.plot(x, stats.chi2.pdf(x, 4),，lw=2，label=u"$\chi ^{2}$ 分 布 ") 
pl.plot(x, k(x)，lw=2，color="red"，alpha=8.6，label=u" 样 本 分 布 ") 
pl.legend(loc="best") 

pl1.xlim(86，16) 
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图 3-22 模拟 卡 方 分 布 


E 方 检验 可 以 用 来 评估 观测 值 与 理论 值 的 差异 是 否 只 是 因为 随机 误差 造成 的 。 在 下 面 的 例 
子 中 ， 袋 子 中 各 种 颜色 的 球 按照 probabilities 参数 指定 的 概率 分 布 ，choose_balls(probabilities, size) 
从 袋 中 选择 size 次 并 返回 每 种 球 被 选中 的 次 数 。 袋 子 1 中 的 球 的 概率 分 布 为 : 0.18、0.24、0.25、 
0.16、0.17。 袋子 2 中 各 种 颜色 的 球 的 个 数 一 样 多 。 通过 调用 choose_balls0 得 到 两 组 数字 : 80 93 97 
64 66 和 89767971 85。 现 在 需要 判断 袋子 中 的 球 是 否 是 平均 分 布 的 。 


def choose balls(probabilities, size): 
r= stats.rv_discrete(values=(range(len(probabilities)), probabilities)) 
s = r.rvs(size=size) 
counts = np.bincount(s) 
return counts 


np.random. seed(42) 
counts1 = choose balls([8.18, 8.24, 0.25, 0.16, 0.17], 460) 
counts2 = choose balls([8.2]*5, 468) 


counts1 counts2 


[886，93，97，64，66] [89, 76, 79, 71, 85] 


使 用 chisquare0 进 行 卡 方 检验 ， 它 的 参数 为 每 种 球 被 选中 次 数 的 列表 ， 如 果 没 有 设置 检验 


的 目标 概率 ， 就 测试 它们 是 否 符合 平均 分 布 。 卡 方 检验 的 零 假 设 为 样本 符合 目标 概率 ， 由 下 面 


的 检验 结果 可 知 ， 第 一 个 袋子 对 应 
平均 分 布 ， 那 么 得 到 的 观测 结果 80 


和 p 值 只 有 002， 也 就 是 说 如 果 第 一 个 袋子 中 的 球 真 的 符合 
93 97 64 66 的 概率 只 有 2%， 因 此 可 以 推翻 零 假设 ， 即 袋子 


中 的 球 不 太 可 能 是 平均 分 布 的 。 第 二 个 袋子 对 应 的 p 值 为 0.64， 无 法 推翻 零 假设 ， 即 我 们 的 结 


论 是 不 能 否定 第 二 个 袋子 中 的 球 是 了 


F 均 分 布 的 。 注 意 ， 和 前 面 介绍 的 t 检 验 一 样 ， 零 假设 只 能 


用 来 否定 ， 因 此 不 能 根据 观测 结果 8976 79 71 85 得 出 袋子 中 的 球 是 符合 平均 分 布 的 结论 。 


chil, pl = stats.chisquare(counts1) 
chi2, p2 = stats.chisquare(counts2) 


print “chil =", chi1, “pl =", pl 
print "chi2 =", chi2, "p2 =", p2 
chil = 11.375 pl = 6.6226576612398 
chi2 = 2.55 p2 = 6.635765452764 


上 方 检验 是 通过 卡 方 分 布 进行 计算 的 。 图 3-23 显示 自由 度 为 4 的 卡 方 分 布 的 概率 密度 函数 ， 
以 及 chil 和 chi2 对 应 的 位 置 x? 和 Xx3。pi 是 疫 右 侧 部 分 的 面积 ， 而 ps 是 疫 右 侧 的 面积 。 


0.20 


图 3-23 卡 方 检验 计算 的 概率 为 有 


影 部 分 的 面积 


FE 方 检验 还 可 以 用 于 二 维 数据 。 前 面 介绍 的 彩色 球 的 例子 中 ， 只 是 按照 球 的 颜色 分 组 ， 而 


二 维 数据 则 按照 样本 的 两 个 


属性 分 组 ， 统 计 学 上 称 之 为 列 联 表 。 例 如 下 


联 表 ， 我 们 希望 知道 这 个 统计 结果 能 否 说 明 性 别 与 惯 


男性 


手 之 间 存 在 某 种 联系 。 


女性 |44 


下 面 使 用 chi2_contingency0 对 列 联 表 进 行 卡 方 检 验 ， 零 假设 为 性 别 与 惯 


年 是 性 别 与 惯用 手 的 列 


手 之 间 不 存在 联 
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系 ， 即 男性 与 女性 惯用 左右 手 的 概率 相同 。 由 于 p 值 为 03， 因 此 不 能 推翻 零 假设 ， 即 该 实验 
数据 中 没有 明显 证 据 表 明 男 性 和 女性 在 使 用 左右 手 习 惯 上 存在 区 别 。 


table = [[43, 9], [44, 4]] 
chi2, p, dof, expected = stats.chi2 contingency(table) 


chi2 p 


1.6724852671665921 6.36838477639856899 
对 于 上 面 的 2X2 的 数值 较 小 的 列 联 表 ， 可 以 使 用 fisher_exact0 计 算出 精确 的 p 值 : 


stats.fisher_ exact(table) 
(8.43434343434343436，68.23915695682225618) 


3.5 数值 积分 -integrate 


A 与 本 节 内 容 对 应 的 Notebook 为 : 03-scipy/scipy-500-integrate.ipynb。 


SciPy 的 integrate 模块 提供 了 几 种 数值 积分 算法 ， 其 中 包括 对 常 微分 方程 组 ODE) 的 数值 
积分 。 
3.5.1 球 的 体积 

数值 积分 是 对 定 积分 的 数值 求解 ,例如 可 以 利用 数值 积分 计算 某 个 形状 的 面积 。 让 我 们 先 
考虑 一 下 如 何 计算 半径 为 1 的 半圆 的 面积 。 根 据 圆 的 面积 公式 ， 其 面积 应 该 等 于 r/2。 单 位 半 
圆 的 曲线 方程 为 y = VL 二 xz， 可 以 通过 下 面 的 half_circle0 进 行 计算 : 


def half_circle(x): 
return (1-X##2)##@.5 


最 简单 的 数值 积分 算法 就 是 将 要 积分 的 面积 分 为 许多 小 矩形 , 然后 计算 这 些 和 矩形 的 面积 之 
下 面 使 用 这 种 方法 ， 将 和 轴 上 -1 到 1 的 区 间 分 为 10000 等 份 ， 然 后 计算 面积 和 : 


和 。 


N = 16666 

x = np.linspace(-1, 1, N) 

dx = x[1] - x[6] 

y = half circle(x) 

2 * dx * np.sum(y) # 面积 的 两 倍 
3.1415893269387373 


| 


上 的 各 点 所 构成 的 多 边 形 的 面积 , trapz0 计 算 的 是 以 Cy) 


也 可 以 用 NumPy 的 trapz0 计 算 半 
为 顶点 坐标 的 折线 与 X 轴 所 夹 的 面积 : 


np.trapz(y，x) * 2 # 面积 的 两 倍 
3.1415893269315975 


如 果 使 用 integrate.quad0 进 行 数值 积分 ， 就 能 得 到 非常 精确 的 结 


from scipy import integrate 

pi_half, err = integrate.quad(half circle, -1, 1) 
pi half * 2 

3.141592653589797 


计算 多 重 定 积分 可 以 通过 多 次 调用 quad0 实 现 ,为 了 调用 方便 ,integrate 模 块 提供 了 dblquad0 
进行 二 重 定 积分 , 提供 了 tplquad0 进 行 三 重 定 积 分 。 下 面 以 计算 单位 半球 体积 为 例 , 说 明 dblquad0 
的 用 法 。 

单位 半球 面 上 的 点 (x,y,2z) 满 足 方程 x? + y2 + z2 = 1， 因 此 下 面 的 half_sphere0 可 以 通过 
X-Y 轴 坐 标 计算 球面 上 的 点 的 乙 轴 坐 标 值 : 


def half_sphere(x, y): 
return (1-x**2-y**2)**@.5 


X-Y 轴 平 面 与 此 球体 的 交 线 为 一 个 单位 圆 ， 因 此 二 重 积分 的 计算 区 间 为 此 单位 圆 。 即 对 村 
和 X 轴 从 -1 到 1 进行 积分 ， 而 对 于 立轴 则 从 -half_circleCo 到 half_circleCo) 进 行 积分 。 因 此 半球 体积 
的 二 重 积分 公式 为 : 


1 rVI-xZ 
用 三 丈 三 死 
pb l= yy ds 
F 面 的 程序 使 用 dblquad0 计 算 半 球体 积 


volume, error = integrate.dblquad(half_sphere, -1, 1, 
lambda x:-half_circle(x), 
lambda x:half_circle(x)) 


print volume, error, np.pi*4/3/2 
2.69439516239 2.32524566534e-14 2.89439518239 


dblquad0 的 调用 参数 为 ，dblquad(func2d, a, b, gfun, hfun)。 其 中 ，func2d 是 需要 进行 二 重 积分 
罗 函 数 ， 它 有 两 个 参数 ,假设 分 别 为 x 和 y。a 和 b 参 数 指定 被 积分 函数 的 第 一 个 变量 x 的 积分 
区 间 ， 而 gfun 和 hfun 参数 指定 第 二 个 变量 y 的 积分 区 间 。gfun 和 hfun 是 函数 ， 它 们 通过 变量 x 
计算 出 变量 y 的 积分 区 间 ， 这 样 可 以 对 X-Y 平面 上 的 任何 区 间 对 func2d 进行 积分 。 
图 3-24 是 半球 体积 的 积分 的 示意 图 。 从 此 示意 图 可 以 看 出 , X 轴 的 积分 区 间 为 -1.0 到 1.0， 
对 于 X 轴 上 的 某 点 x0， 通 过 对 Y 轴 的 积分 可 以 计算 出 图 中 深 色 的 垂直 切面 的 面积 ， 因 此 Y 轴 
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的 积分 区 间 如 图 中 的 点 线 所 示 。 


1.00-1.00 
图 3-24 半球 体 二 重 积分 示意 图 


3.5.2 ” 解 常 微分 方程 组 


integrate 模块 还 提供 了 对 常 微分 方程 组 进行 积分 的 函数 odeint0。 下 面 我 们 看 看 如 何 用 它 计 
算 洛 伦 茨 吸引 子 的 轨迹 。 洛 伦 茨 吸引 下 面 的 三 个 微分 方程 定义 
Fe=0. G0 —»%), YY-x- (p 一 2) 一 多 a 
这 三 个 方程 定义 了 三 维 空间 中 各 个 坐标 点 上 的 速度 矢量 。 从 某 个 坐标 开始 沿 着 速度 矢量 进 
行 积分 ， 就 可 以 计算 出 无 质量 点 在 此 空间 中 的 运动 轨迹 。 其 中 o、p、B 为 三 个 常数 ， 不 同 的 参 
数 可 以 计算 出 不 同 的 运动 轨迹 : x(t)、y(t)、z(t)。 当 参数 为 某 些 值 时 ， 轨 迹 出 现 混 沌 现象 。 即 
微小 的 初 值 差别 也 会 显著 地 影响 运动 轨迹 。 下 面 是 洛 伦 茨 吸引 子 的 轨迹 计算 和 绘制 程序 。 
@ 程 序 中 先 定义 一 个 函数 lorenz0， 它 的 任务 是 计算 出 某 个 坐标 点 的 各 个 方向 上 的 微分 值 ， 
[以 直接 根据 洛 伦 茨 吸引 子 的 公式 得 出 。 
@@ 使 用 不 同 的 位 移 初始 值 两 次 调用 odeint0， 对 微分 方程 求解 。odeint0 有 许多 参数 ， 这 里 
用 到 的 4 个 参数 分 别 为 : 
e@ lorenz: 它 是 计算 某 个 位 置 上 的 各 个 方向 的 速度 的 函数 。 
e (0.0, 1.0,0.0): 位 置 初 始 值 ， 它 是 计算 常 微分 方程 所 需 的 各 个 变量 的 初始 值 。 
e t: 表示 时 间 的 数组 ， eben 得 出 所 有 时 间 点 的 
位 置 。 
e@ args: 这 些 参数 直接 传递 给 lorenz0， 因 此 它们 在 整个 积分 过 程 中 都 是 常量 。 
图 3-25 显示 了 odeint0 所 得 到 的 轨迹 。 由 结果 可 知 ， 即 使 初始 值 只 相差 0.01， 两 条 运动 轨 
迹 也 是 完全 不 同 的 。 


它 电 


http://bzhang.lamost.org/website/archives/lorenz_attactor 
洛 伦 英 吸引 子 的 详细 介绍 。 


from scipy.integrate import odeint 
import numpy as np 


def lorenz(w t, p, r, b): © 
# 给 出 位 置 矢量 w 和 三 个 参数 p、r、b 
# 计算 出 dx/dt、dy/dt、dz/dt 的 值 
XxX, Ys Z = W.tolist() 
# 直接 与 lorenz 的 计算 公式 对 应 


return p*(y-x), x*(r-z)-y, x*y-b*z 


t = np.arange(6，36，6.62) # 创建 时 间 点 

# 调用 ode 对 lorenz 进行 求解 ， 用 两 个 不 同 的 初始 值 

track1 = odeint(lorenz，(8.6，1.66，6.6)，t，args=(16.6，28.6，3.6)) © 
track2 = odeint(lorenz, (8.0, 1.61, 8.0), t, args=(10.0, 28.0, 3.0)) © 


图 3-25 洛 伦 区 吸引 子 :微小 的 初 值 差别 也 会 显著 地 影响 运动 轨迹 
3.5.3 ode 类 
使 用 odeint0 可 以 很 方便 地 计算 微分 方程 组 的 数值 解 ， 只 需 调 用 一 次 odeint0 就 能 计算 出 一 
组 时 间 点 上 的 系统 状态 。 但 是 有 时 我 们 希望 一 次 只 前 进 一 个 时 间 片 段 ， 从 而 对 求解 对 象 进行 更 
精确 的 控制 。 在 下 面 的 例子 中 ， 我 们 通过 ode 类 模拟 如 图 3-26 所 示 的 弹簧 系统 每 隔 lms 周期 的 
系统 状态 ， 并 通过 PID 控制 器 控制 滑 块 的 位 置 。 


图 3-26 质量 -弹簧 -阻尼 系统 
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该 系统 的 微分 方程 为 ，mX 十 bx + kx = F。 其 中 x 为 滑 块 的 位 移 ， 区 为 位 移 对 时 间 的 二 次 
导数 ， 即 滑 块 的 加 速度 ，x 为 渭 块 的 速度 ，m 为 滑 块 的 质量 ，b 为 阻尼 系数 ，k 为 弹簧 的 系数 ， 


F 为 外 部 施加 于 滑 块 的 控制 力 。 这 是 一 个 二 次 微分 方程 ， 为 了 使 用 ode 对 系统 求解 ， 需 要 将 其 


转换 成 如 下 一 阶 微分 方程 组 : 
广 =u t= (F-kx -bu)/m 


其 中 x 为 滑 块 的 位 移 ，u 为 滑 块 的 速度 。 这 两 个 变量 构成 了 系统 的 状态 ， 它 们 对 时 间 的 导 


数 可 以 通过 这 两 个 方程 直接 算出 。 


def mass_spring_damper(xu，t，m，k，b，F): 
x, U = Xu.tolist() 
dx=u 
du = (F - k*x - b*u)/m 
return dx, du 


下 面 使 用 odeint0 对 该 系统 进行 求解 ， 初 值 为 滑 块 在 位 移 00 处 ， 起 始 速度 为 0， 外 部 控制 


力 恒 为 10。 如 图 3-27 所 示 ， 系 统 经 过 约 两 秒 钟 ， 最 终 停 在 了 位 移 005 米 处 。 


m, b, k, F = 1.6，16.6，26.6，1.6 
init_status = 60.60, 60.0 

args = m, k, b, F 

t = np.arange(0, 2, 8.81) 

result = odeint(mass_spring damper, init_status, t, args) 


SQ ODooNRrc 
THN 
门 : T 


Cooo0oo00006 
B88R 
DO 


PX- 


图 3-27 滑 块 的 速度 和 位 移 曲线 


我 们 希望 通过 控制 外 力 F， 使 得 滑 块 更 迅速 地 停 在 位 移 1.0 处 ， 这 时 可 以 使 用 


PID 控制 器 


一 样 ， 也 需要 一 个 计算 各 个 状态 的 导数 的 函数 。 


进行 控制 ,在 介绍 PID 控制 器 之 前 ,首先 让 我 们 用 ode 类 重 写 odeint0 模 拟 的 部 分 ,ode 类 和 odeint0 


@ 这 里 使 用 MassSpringDamper 类 的 方法 如 计算 状态 点 处 的 导数 。 注 意 该 方法 


odeint0 所 需 的 函数 mass_spring_damper0 不 同 ， 第 一 个 参数 为 时 间 ， 第 二 个 参数 为 系统 状态 。 并 
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的 参数 顺序 和 


且 该 方法 必须 返回 一 个 列表 来 表示 各 个 状态 的 导数 ,不 能 返回 元 组 。 这 里 使 用 MassSpringDamper 
类 将 系统 的 各 个 参数 M、k、b 以 及 F 等 包装 在 对 象 内 部 。 

@ 创 建 ode 对 象 之 后 ， 通 过 set_integrator0 设 置 积 分 器 相关 的 参数 。 它 的 第 一 个 参数 为 积分 
器 的 算法 ， 其 后 的 关键 字 参 数 设 置 该 积分 器 算法 的 各 个 参数 。 关 于 各 个 参数 的 具体 含义 请 读者 
参阅 ode 类 的 文档 说 明 。 然 后 调用 set_initial_value0 设 置 系 统 的 初始 状态 和 初始 时 间 。 

稀 在 while 循环 中 ， 以 dt 为 间隔 对 系统 进行 积分 求解 。ode 对 象 的 属性 rt 为 当前 的 模拟 时 
间 ， 调 用 rintegrate(rt + db 计算 rt + dt 处 的 状态 。 系 统 的 状态 保存 在 ry 中 。 我 们 用 两 个 列表 
和 result 分 别 保存 模拟 时 间 和 系统 状态 。 

由 allclose0 的 比较 结果 可 知 使 用 ode 的 结果 与 odeint0 的 完全 相同 。 


from scipy.integrate import ode 


class MassSpringDamper(object): © 


def init (self, m, k, b, F): 
self.m, self.k, self.b, self.F =m, k, b, F 


def f(self, t, xu): 
X， U = xu.tolist() 
dx = U 
du = (self.F - self.k*x - self.b*u)/self.m 
return [dx, du] 


System = MassSpringDamper(m=m, k=k, b=b, F=F) 
init_status = 6.0, 60.0 
dt = 0.61 


r= ode(system.f) @ 
r.set_integrator('vode', method="'bdf') 
r.set_initial value(init_status, 8) 


这 记 相 | 

result2 = [init_status] 

while r.successful() and rt + dt < 2: © 
r.integrate(r.t + dt) 
t.append(r.t) 
result2.append(r.y) 


result2 = np.array(result2) 
np.allclose(result, result2) 


True 
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于 在 while 循环 中 我 


2 


的 控制 方法 ，PID 控制 。 采 / 


各 
—Setpoint 


门 逐 点 对 系统 的 状态 进行 模拟 ， 因 
变 作用 于 滑 块 上 的 力 ， 从 而 使 滑 块 更 迅速 地 停 在 目标 位 置 。 这 里 我 们 将 采 
PID 控制 器 的 系统 框图 如 图 


二 于 本 所 


可 以 在 殿 


3-28 所 示 。 


Output—> 


图 3-28 PID 控制 系统 


控制 理论 中 最 常 


中 增加 控制 代码 ， 改 


图 3-28 中 ，Setpoint 为 控制 的 目标 状态 ， 在 本 例 中 为 滑 块 的 目标 位 移 ， 控 制 目标 系统 


Process( 即 质量 - 弹 签 -阻尼 系统 ) 的 输 ! 

的 误差 Eror 作为 PID 系统 的 输入 。 
e P: 比例 项 ， 输 出 和 误差 成 
e I: 积分 项 ， 输 出 和 误差 的 和 


e D: 微分 项 ， 输 出 和 误差 的 锁 


三 项 之 和 作为 PID 控制 器 的 输 ! 


统 框图 中 使 用 积分 和 微分 符号 表示 积 


1 Output 为 系统 的 输出 ,在 本 例 中 为 滑 妇 
PID 控制 器 由 三 个 独立 的 部 分 构成 ; 

zs 比 ; 

! 分 成 正比 。 

分 成 正比 。 


的 实际 位 移 ， 


-者 


4， 在 本 例 中 控制 器 的 输出 为 作用 在 滑 块 之 上 的 外 力 F。 系 
分 项 和 微分 项 ， 在 实际 的 控制 系统 中 ， 我 们 以 一 定 的 时 间 


间隔 计算 控制 器 的 输出 ,这 时 积分 项 可 以 用 累加 变量 self.status 表示 ， 而 微分 项 可 以 用 当前 的 误 


差 以 及 前 次 的 误差 selflast_error 之 间 
下 面 是 PID 控制 器 的 程序 ， 我 1 
一 次 的 误差 last_error 等 包装 起 来 。 


class PID(object): 


的 差 进行 计算 。 


def _init_ (self, kp, ki, kd, dt): 
self.kp, self.ki, self.kd, self.dt = kp, ki, kd, dt 


self.last_error = None 
self.status = 60.0 


def update(self, error): 
= self.kp * error 
i = self.ki * self.status 


if self.last_ error is None: 


d= 808.0 


门 使 用 类 把 kp、Kki、kd、dt 等 参数 、 累 加 变量 status 以 及 上 


else: 
d = self.kd * (error - self.last error) / self.dt 
self.status += error * self.dt 
self.last_error = error 
returnp+i+d 


下 面 的 程序 使 用 PID 控制 器 对 系统 进行 控制 ， 让 滑 块 更 快 地 停 在 位 移 1.0 处 ， 为 了 后 续 调 
用 优化 工具 自动 搜索 合适 的 PID 参数 , 这 里 将 整个 系统 模拟 用 函数 pid_control_systemO 封 装 起 来 ， 
函数 的 参数 为 PID 控制 器 的 三 个 参数 。 

程序 的 基本 构造 与 前 面 的 无 控制 的 程序 相同 ， 只 是 增加 了 PID 控制 器 方面 的 运算 : @ 计 算 
目标 位 置 1.0 与 当前 位 置 之 间 的 误差 @ 使 用 该 误差 更 新 PID 控制 器 ， 获 得 控制 器 的 输出 F，@ 
更 新 目标 系统 中 的 控制 力 。 

由 程序 的 输出 可 知 ， 由 于 PID 控制 器 的 控制 ， 系 统 在 两 秒 之 内 就 已 经 停 在 了 位 移 1.0 处 ， 
如 图 3-29 所 示 。 


def pid control_system(kp, ki, kd, dt, target=1.0): 
System = MassSpringDamper(m=m, k=k, b=b, F=8.06) 
pid = PID(kp, ki, kd, dt) 
init_status = 6.0, 60.0 


r = ode(system.f) 
r.set_integrator('vode', method="bdf') 
r.set_initial value(init_status, 8) 


t= [9] 
result = [init_status] 
F_arr = [6] 


while r.successful() and rt + dt < 2.6: 
r.integrate(r.t + dt) 
err = target - r.y[e] © 
F = pid.update(err) © 
system.F=F © 
t.append(r.t) 
result.append(r.y) 
F_arr.append(F) 


result = np.array(result) 
t = np.array(t) 

F_arr = np.array(F_arr) 
return t, F_arr, result 
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t, F_arr, result = pid control_system(56.06, 160.0, 10.0, 9.601) 
print u" 控 制 力 的 终 值 :"，F_arr[-1] 
控制 力 的 终 值 : 19.9434646839 


0 
0.0 0.5 1.0 15 2.0 


图 3-29 使 用 PD 控制 器 让 滑 块 停 在 位 移 1.0 处 


通过 调节 PID 控制 器 的 三 个 参数 可 以 获得 最 佳 的 控制 效果 ， 这 里 我 们 使 用 前 面 介绍 过 的 
optimize 库 中 的 函数 自动 寻找 最 优 的 PID 参数 。 为 了 使 用 最 优化 函数 ， 需 要 编写 一 个 对 控制 结 
果 进 行 评价 的 函数 。 由 于 我 们 的 目标 是 让 滑 块 尽快 地 停 在 位 移 1.0 处 ， 因 此 可 以 用 前 两 秒 钟 滑 
块 位 移 与 目标 位 移 差 的 绝对 值 之 和 作为 控制 结果 的 评价 ， 该 值 越 小 表示 控制 得 越 好 。 为 了 让 最 
优化 运行 得 快 一 些 ， 这 里 将 控制 器 的 时 间 间 隔 改 为 0.01 秒 。 


%%time 
from scipy import optimize 


def eval_ func(k): 
kp, ki, kd=k 
t, F_arr, result = pid control system(kp, ki, kd, 8.61) 
return np.sum(np.abs(result[:, 8] - 1.6)) 


kwargs = {"method":"L-BFGS-B", 
"bounds":[(10, 200), (10, 100), (1, 100)], 


"options":{"approx_grad":True}} 


opt_k = optimize.basinhopping(eval_ func, (10, 10, 10), 
niter=16， 
minimizer_kwargs=kwargs) 

print opt_k.x 

[ 199.81255771 166. 15.26382674] 

Wall time: lmin 15s 


下 面 使 用 优化 器 的 输出 作为 PID 的 参数 对 系统 进行 模拟 ， 可 以 看 到 控制 开始 0.5 秒 之 后 滑 
块 已 经 基本 上 稳定 在 了 位 移 10 处 ， 如 图 3-30 所 示 。 


kp, ki, kd = opt_k.x 
t, F_arr, result = pid control_system(kp, ki, kd, 8.81) 
idx = np.argmin(np.abs(t - 9.5)) 
x, u = result[idx] 
print "t={}, x={:g}, u={:g}".format(t[idx], x, u) 
t=0.5, x=0.979592,，u=0.60828481 

1.0 


0.8 
0.6 


| 一 速度 


0.0 0.5 1.0 45 2.0 


图 3-30 优化 PID 的 参数 以 降低 控制 响应 时 间 
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3.6 信号 处 理 -signal 


A 与 本 节 内 容 对 应 的 Notebook 为 : 03-scipy/scipy-600-signal.ipynb。 


SciPy 的 signal 模块 提供 了 信号 处 理 方面 的 许多 函数 ， 包 括 卷 积 运算 、B 样 条 、 滤 波 以 及 滤 
波 器 设计 等 方面 的 内 容 。 


3.6.1 中 值 滤波 


中 值 滤波 能 够 比较 有 效 地 消除 声音 信号 中 的 瞬间 噪声 或 者 图 像 中 的 斑点 噪声 。 在 signal 模 
块 中 , medfilt0 对 一 维 信号 进行 中 值 滤波 , 而 medfilt2d0 对 二 维 信号 进行 中 值 滤波 。 在 scipyndimage 
模块 中 另 有 针对 多 维 图 像 的 中 值 滤波 器 ， 这 里 简单 演示 medfilt0 的 效果 。 

t = np.arange(0, 20, 0.1) 

x = np.sin(t) 

x[np.random.randint(8, len(t), 20)] += np.random.standard_normal(26)*6.6 © 

x2 = signal.medfilt(x, 5) @ 

x3 = signal.order filter(x, np.ones(5), 2) 

print np.all(x2 == x3) 

pl.plot(t，x，label=u" 带 噪声 的 信号 ") 

pl.plot(t，x2 + 8.5，alpha=8.6，label=u" 中 值 滤波 之 后 的 信号 ") 

pl.legend(loc="best") 


True 


@ 首 先 创建 一 个 带 有 随机 的 瞬间 噪声 的 正弦 波 ，@ 然 后 调用 medfilt0 进 行 中 值 滤波 ， 第 二 
个 参数 为 计算 中 值 的 窗口 大 小 , 它 必须 是 一 个 奇数 。medfilt0 将 信号 中 的 每 个 元 素 都 替换 为 其 窗 
口内 的 中 值 。 

最 后 绘制 原始 信号 和 滤波 信号 , 为 了 便于 比较 , 图 中 将 滤波 之 后 的 信号 统一 向 上 偏 移 了 0.5， 
结果 如 图 3-31 所 示 。 中 值 滤波 是 排序 滤波 的 一 个 特例 。 使 用 排序 滤波 可 以 将 元 素 符 换 为 其 窗口 
内 指定 排序 顺序 的 元 素 。 其 调用 形式 如 下 : 


order_filter(a，domain，rank) 


其 中 a 是 一 个 多 维 数组 ，domain 是 维 数 和 a 相同 的 数组 ， 它 指定 窗口 的 范围 ，rank 是 一 个 
非 负 整数 ， 用 来 选择 窗口 中 元 素 排序 后 的 值 ，0 表示 选择 最 小 值 ，1 表示 选择 第 二 小 的 值 。 中 
值 滤波 也 可 以 用 order_ filter0 计 算 ， 注 意 domain 参数 是 一 个 长 度 为 5、 值 全 为 1 的 数组 。 


3.6.2 ”滤波 器 设计 


signal 模块 提供 了 许 


图 3-31 使 用 中 值 滤波 剔除 瞬间 噪声 


多 滤波 器 设计 的 函数 ,在 下 面 的 实例 中 , 我 们 设计 一 个 IIR 带 通 滤波 器 ， 


并 查看 其 频率 响应 ， 最 后 使 用 它 对 频率 扫描 信号 进行 滤波 计算 。 


sampling_rate = 8666.6 


# 设计 一 个 带 通 滤波 器 : 


# 通 带 为 9.2*4668 - 9.5*+4669 


# 阻 带 为 <8.1*4668，> 


0.6*40060 


# 通 带 增益 的 最 大 衰减 值 为 2dB 
# 阻 带 的 最 小 衰减 值 为 46dB 
b, a = signal.iirdesign([8.2, 8.5], [98.1, 8.6], 2, 460) © 


# 使 用 freq 计算 滤波 器 的 频率 响应 
w, h = signal.freqz(b, a) @ 


# 计算 增益 


power = 26xnp.1log16(np.clip(np.abs(h)，1le-8，1le166)) © 
freq =w/ np.pi * sampling rate / 2 


@ 首 先 用 iirdesign0 设 计 一 个 IR 带 通 滤波 器 。 这 个 滤波 器 的 通 带 为 02f0 到 0.5fo， 阻 带 为 小 


于 0.1 和 大 于 0.6fo， 划 
波 器 的 通 带 为 800Hz 到 


通 带 的 增益 浮动 在 24B 之 内 ， 阻 带 至 少 有 40dB 的 衰减 。 


中 名 为 信号 取样 频率 的 一 半 。 如 果 取 样 频 率 为 8&kHz， 那 么 这 个 带 通 滤 
2kHz。 通 带 的 最 大 增益 衰减 为 24B， 阻 带 的 最 小 增益 衰减 为 40dB， 即 


iirdesgin0 返 回 两 个 数组 b 和 a， 它 们 分 别 是 IIR 滤波 器 的 分 子 和 分 母 部 分 的 系数 。 其 中 al0] 
恒 等 于 1。@ 调 用 freqz0 计 算 所 得 到 的 滤波 器 的 频率 响应 。freqz0 返 回 两 个 数组 w 和 h， 其 中 w 


是 圆 频率 数组 , 通过 ofwr 可 以 计算 出 与 其 对 应 的 实际 频率 。h 是 w 中 对 应 频率 点 的 响应 , 它 是 


一 个 复数 数组 ， 其 幅 值 表示 滤波 器 的 增益 特性 ， 相 角 表示 滤波 器 的 相位 特性 。 
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人 @@ 计 算 h 的 增益 特性 ， 并 使 用 dB 进行 度量 。 由 于 h 中 存在 幅 值 几乎 为 0 的 值 ， 因 此 先 
clip0 对 其 裁剪 之 后 ， 再 调用 对 数 函数 ， 避 免 计算 出 错 。 

在 实际 运用 中 为 了 测量 未 知 系统 的 频率 特性 ， 经 常 将 频率 扫描 波 输入 到 系统 中 ， 观 察 系统 
的 输出 ， 从 而 计算 其 频率 特性 。 下 面 让 我 们 模拟 这 一 过 程 : 


# 产生 两 秒 钟 的 取样 频率 为 sampling_rate Hz 的 频率 扫描 信号 

# 开始 频率 为 69， 结束 频率 为 sampling_rate/2 

t = np.arange(6，2，1/sampling_rate) © 

sweep = signal.chirp(t, f@=0, t1=2, fl=sampling rate/2) @ 
# 对 频率 扫描 信号 进行 滤波 

out = signal.1lfilter(b, a, sweep) © 

# 将 波形 转换 为 能 量 

out = 26knp.log16(np.abs(out)) © 

# 找到 所 有 局 部 最 大 值 的 下 标 

index = signal.argrelmax(out, order=3) © 

# 绘制 滤波 之 后 的 波形 的 增益 

pl.figure(figsize=(8, 2.5)) 
pl.plot(freq，power，label=u" 带 通 IIR 滤波 器 的 频率 响应 ") 
pl1.plot(t[index]/2.9*4666，out[index] ，1label=u" 频 率 扫描 波 测量 的 频谱 "，alpha=6.6) @ 
pl.legend(loc="best") 


@ 为 了 调用 chirp0 产 生 频 率 扫描 波形 的 数据 , 首先 需要 产生 一 个 表示 取样 时 间 的 等 差 数 组 ， 
这 里 产生 两 秒 的 取样 频率 为 8kHz 的 取样 时 间 数 组 . @ 然 后 调用 chirp0 得 到 两 秒 的 频率 扫描 波形 
的 数据 。 频 率 扫描 波 的 开始 频率 名 为 0Hz， 结 束 频 率 入 为 4kHz， 到 达 4kHz 的 时 间 为 两 秒 ， 使 
用 数组 t 作 为 取样 时 间 点 。@ 最 后 调用 lfilter0 计 算 频 率 扫描 波形 经 过 带 通 滤波 器 之 后 的 结果 。 

@ 为 了 和 系统 的 增益 特性 图 进行 比较 ， 需 要 获取 输出 波形 的 包 络 ， 因 此 先 将 输出 波形 数据 
转换 为 能 量 值 。@ 为 了 计算 包 络 ， 调 用 argrelmax0 找 到 out 数组 中 所 有 局 部 最 大 值 的 下 标 ，order 
参数 指定 局 域 最 大 值 的 范围 , 这 里 的 值 为 3 表示 所 有 的 局 域 最 大 值 都 是 连续 7 个 元 素 (前 后 各 三 
个 元 素 ) 中 的 最 大 值 。@ 最 后 将 时 间 转 换 为 对 应 的 频率 ， 绘 制 所 有 局 部 最 大 点 的 能 量 值 。 

图 3-32 显示 了 freqz0 计 算 的 频谱 和 频率 扫描 波 得 到 的 频率 特性 ， 可 以 看 到 结果 是 一 致 的 。 


沁 频率 扫描 波 测 量 的 滤波 器 频谱 
-一 带 通 IIR 泪 波 器 的 频率 响应 
一 频率 扫描 浓 测量 的 频谱 


增益 (dB) 


0 500 1000 1500 2000 2500 3000 3500 4000 
频率 (Hz) 


图 3-32 用 频率 扫描 波 测量 的 频率 响应 


3.6.3 连续 时 间 线 性 系统 


在 上 一 节 中 ， 我 们 使 用 odeint0 对 质量 - 弹 竹 -阻尼 系统 的 微分 方程 组 进行 了 数值 积分 ， 并 且 
进行 了 PID 控制 模拟 。 该 系统 的 微分 方程 为 m 交 十 bx + kx = f。 通 过 拉 普 拉 斯 变换 可 以 将 微 
分 方程 化 为 容易 求解 的 代数 方程 : ms2X(s) + bsX(s) + kX(s) = F(s)。 其 中 F(s) 是 f(t) 的 拉 普 拉 
斯 变换 ， X(s) 是 x(b 的 拉 普 拉 数 变换 ， 而 n 次 微分 变 成 了 san。F(s) 是 输入 信号 ， 而 X(s) 是 输出 信 

， 将 等 式 改写 为 输入 除 以 输出 的 形式 ， 就 得 到 了 系统 的 传递 函数 P(s): 

XG) _ . 
F(s) ms?+bs+k 

连续 时 间 系 统 的 传递 函数 是 两 个 s 的 多 项 式 的 商 。 通 过 连续 时 间 系 统 的 传递 函数 ， 很 容易 

计算 某 输入 信号 对 应 的 输出 信和 号。 在 下 面 的 例子 中 , 使 用 signal 模块 计算 质量 -弹簧 -阻尼 系统 对 

阶 跃 信号 以 及 正弦 波 信号 的 响应 输出 。@ 创 建 二 对 象 ， 可 以 使 用 控制 理论 中 的 多 种 形式 表示 连 
续 时 间 线 性 系统 ， 这 里 使 用 的 是 传递 函数 分 子 和 分 母 多 项 式 的 系数 。 多 项 式 的 系数 与 
numpy.polyld 的 约定 相同 ， 即 下 标 为 0 的 元 素 是 最 高 次 项 的 系数 。@ 调 用 lti.step0 方 法 计算 系统 
的 阶 跃 响应 ,TT 参数 为 计算 响应 的 时 间 数 组 @ 调 用 signaljlsim0 计 算 系 统 对 正弦 波 信号 的 响应 ， 
它 的 第 一 个 参数 为 也 对 象 ， 也 可 以 直接 传递 numerator, denominator)。 串 参数 为 保存 输入 信号 的 
数组 。step0 和 lsim0 计 算 结 果 中 的 第 二 项 为 系统 的 输出 信号 ， 这 里 忽略 其 余 的 输出 。 

图 3-33 显示 阶 跃 响应 最 终 稳 定 在 x=0.05 处 ， 这 时 的 kx=1。 


| 一 阶 中 响应 ]| 


一 正 至 波 响 应 | | 


位 移 ( 米 ) 


， 1 ， 
”0.0 0.5 1.0 1.5 2.0 
时 间 ( 秒 ) 


图 3-33 系统 的 阶 跃 响应 和 正弦 波 响 应 
m, b, k = 1.6，16，26 


numerator = [1] 
denominator = [m, b, k] 


plant = signal.lti(numerator, denominator) © 
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t = np.arange(86，2，6.61) 
_，X_step = plant.step(T=t) ©@ 
_, Xsin, _ = signal.lsim(plant, U=np.sin(np.pi*t), T=t) © 


传递 函数 的 代数 运算 可 以 表示 由 多 个 连续 时 间 系 统 组 成 的 系统 , 例如 两 个 系统 的 级 联 的 传 

递 函数 是 各 个 系统 的 传递 函数 的 乘积 。 而 传递 函数 由 分 子 和 分 母 两 个 多 项 式 构成 ， 因 此 传递 函 

数 的 四 则 运算 可 以 使 用 NumPy 的 polyld 相关 的 函数 实现 。 下 面 的 SYS 类 通过 定义 _mul_、 
add 、_sadd 、_div_ 等 魔法 方法 ， 让 它 支 持 四 则 运算 。 


图 3-34 反馈 控制 系统 框图 


@feedback0 方 法 计算 与 之 对 应 的 反馈 系统 的 传递 函数 ,在 图 3-34 中 ,P 是 被 控制 的 系统 , C 是 
控制 器 ，C 的 输入 信号 是 目标 信号 与 实际 输入 的 差 x, 一 x。 我 们 从 x 到 x 的 传递 函数 就 是 这 个 反 
馈 系统 的 传递 函数 。 根 据 图 示 可 以 列 出 如 下 拉 普 拉 斯 变换 之 后 的 代数 方程 : 

X(s) = (Xr(s) —X(s)) + Cs) + P(s) 
整理 可 得 : 
X(s)  C(s):P(s) 
Xr(s) “1+ C(s) : P(s) 
如 果 将 CCs) . PCs) 看 作 系统 Y(s)， 那 么 可 以 得 出 反馈 系统 的 传递 函数 为 : 一 


1+Y(s)” 


@ 为 了 让 SYS 对 象 能 作为 step0、lsim0 等 函数 的 第 一 个 表示 系统 的 参数 , 需要 定义 _iter_0 
魔法 方法 返回 传递 函数 的 分 子 与 分 母 的 多 项 式 系数 。 


from numbers import Real 


def as_sys(s): 
if isinstance(s, Real): 
return SYS([s], [1]) 
return s 


class SYS(object): 
def _ init (self, num, den): 
self.num = num 
self.den = den 


def feedback(self): © 


return self / (self + 1) 


def _mul_(self, s): 
s= as sys(s) 
num = np.polymul(self.num, s.num) 
den = np.polymul(self.den, s.den) 
return SYS(num, den) 


def _add_(self, s): 
s = as sys(s) 
den = np.polymul(self.den, s.den) 
num = np.polyadd(np.polymul(self.num, s.den), 
np.polymul(s.num, self.den)) 
return SYS(num, den) 


def _sadd_(self, s): 
return self + S 


def _div_(self, s): 
s = as_sys(s) 
return self * SYS(s.den, s.num) 


def _ iter_(self): @ 
return iter((self.num, self.den)) 


下 面 我 们 用 SYS 类 计算 使 用 PE[ 控制 器 控制 质量 -弹簧 -阻尼 系统 时 的 阶 跃 响应 。PI 控制 器 的 

传递 函数 为 : 
二 Kps 十 Ki 
S 

主意 上 节 中 介绍 的 PI 控制 器 是 离散 时 间 的 ， 使 用 累加 器 近似 计算 积分 器 的 输出 ， 而 本 节 

采用 连续 时 间 系 统 的 系统 响应 模拟 控制 系统 。 
@ 质 量 - 弹 答 -阻尼 系统 的 传递 函数 为 plant，@PI 控 制 器 的 传递 函数 为 pi_ctl， 为 了 step0 不 

抛 出 LinAlgEmor 异常 ， 这 里 将 PI 控制 器 的 传递 函数 的 分 母 常数 项 设置 为 一 个 非常 小 的 值 。@ 
计算 反馈 系统 的 传递 函数 feedback。 由 图 3-35 可 以 看 出 Ki 为 0 时 ， 系 统 的 输出 位 移 与 目标 位 移 
之 间 存 在 一 定 的 差距 ，Kp 越 大 差距 越 小 ， 但 是 会 出 现 过 冲 现象 。 适 当 调 节 Kp 与 Ki 可 以 减弱 过 
冲 现象 ， 但 是 仍然 会 有 超过 目标 位 移 的 时 刻 。 


M, b, k = 1.6, 10, 20 
plant = SYs([1], [M, b, k]) © 


pi_settings = [(10, 1e-10), (260, 1e-10), 
(266，166)， (568，166)] 
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fig, ax = pl.subplots(figsize=(8, 3)) 


for pi setting in pi settings: 
pi ctrl = SYS(pi_setting, [1, 1e-6]) @ 
! feedback = (pi_ctrl * plant).feedback() © 
| _, Xx = signal.step(feedback，T=t) 
! label = "$K p={:d}, K_i={:3.6f}$".format(*pi setting) 
ax.plot(t, x, label=label) 


.legend(loc="best", ncol=2) 
.Set_xlabel(u" 时 间 ( 秒 )") 
.Set_ylabel(u" 位 移 ( 米 )") 


a 


x 


a 


x 


a 


x 


一 K,=10,K,=0 一 K,=200,K,=100 
12[ 一 K,=200K=0 一 kK,=50,K;=100 
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图 3-35 使 用 PIT 控制 器 的 控制 系统 的 阶 跃 响应 


者 号 传递 给 lsim0 计 算 控 制 器 的 输出 : 


为 了 计算 施加 于 质量 的 控制 力 ， 可 以 将 误差 
_，f，_ = signal.lsim(pi ctrl, U=1-x, T=t) 


为 了 彻底 消除 过 冲 现象 ， 需 要 使 用 PID 控制 ，PID 控制 器 的 传递 函数 为 : 
EE Kas* + Kps + Ki 
S 
下 面 计算 PID 控制 器 构成 的 反馈 系统 的 阶 跃 响应 。 由 于 PID 控制 器 需要 对 输入 信号 进行 微 
分 ， 而 阶 跃 输入 信号 会 导致 PID 的 输出 中 包含 脉冲 输出 ， 即 时 间 无 限 短 、 值 无 限 大 的 信号 。 

| kd, kp, ki = 39，269，466 
pid_ctrl = SYS([kd, kp, ki], [1, 1e-6]) 
feedback = (pid _ ctrl * plant).feedback() 
_, Xx2 = signal.step(feedback, T=t) 


为 了 让 PID 控制 器 的 输出 在 限定 的 范围 之 内 ， 可 以 在 反馈 系统 之 前 添加 一 个 低 通 滤波 器 ， 


170 


一 阶 低 通 滤波 器 的 传递 函数 为 : 一 一。 添加 低 通 滤波 器 之 后 ，PID 控制 器 的 输入 就 是 连续 信号 


ast+1 


了 ， 如 图 3-36 所 示 。 


Xr 


图 3-36 带 低 通 滤波 器 的 反馈 控制 系统 框图 


lp = SYS([1], [8.2, 1]) 
lp_feedback = lp * (pid ctrl * plant).feedback() 
_, Xx3 = signal.step(lp_ feedback, T=t) 


由 于 PID 控制 器 的 传递 函数 的 分 子 阶 数 高 于 分 母 阶 数 ， 因 此 无 法 使 用 lsim0 计 算 。 我 们 可 
以 把 xr 当 作 系 统 的 输入 ， 把 f 当 作 输 出 ， 通 过 下 面 的 方程 计算 从 xr 到 f 的 传递 函数 : 
F(s) = (Xr(s)* LP(s) — F(s). P(s)). C(s) 
得 到 的 传递 函数 为 : 
F(s) ~ C(s):LP(s) 
Xr(s) C(s):P(s))+1 
下 面 根据 上 面 的 公式 计算 带 低 通 滤波 器 的 控制 系统 中 控制 器 的 输出 : 
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pid out = (pid_ctrl * lp) / (pid_ctrl * plant + 1) 
_，f3 = signal.step(pid out, T=t) 

图 3-37 显示 了 上 述 PI 控制 \.PID 控制 以 及 带 低 通 滤波 的 PID 控制 等 系统 中 滑 块 的 位 移 以 及 
控制 力 。 由 于 PID 控制 的 控制 力 存在 脉冲 信号 ， 因 此 无 法 在 图 中 正确 显示 。 由 位 移 曲线 可 以 看 
出 低 通 +PID 控制 可 以 有 效 抑制 过 冲 现象 。 
目标 系统 的 位 移 控制 力 


一 Pl 控 制 
人 一 低 通 *PID 控 制 


一 FI 控制 40 
一 PID 控制 
二 人 Pipe 提 | 


图 3-37 滑 块 的 位 移 以 及 控制 力 


| 
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3.7 ”插值 -interpolate 


A 与 本 节 内 容 对 应 的 Notebook 为 : 03-scipy/scipy-700-interpolate.ipynb。 


插值 是 通过 已 知 的 离散 数据 求 未 知 | 数据 的 方法 。 与 拟 合 不 同 的 是 ， 要 求 曲 线 通 过 所 有 的 已 
知 数据 。SciPy 的 interpolate 模块 提供 了 许多 对 数据 进行 插值 运算 的 函数 。 


3.7.1 一 维 插值 


一 维 数据 的 插值 运算 可 以 通过 interpld0 完 成 。 其 调用 形式 如 下 ， 它 实际 上 不 是 函数 而 是 一 
个 类 ; 


interpld(x, y, kind="'linear', ...) 


其 中 ，x 和 y 参数 是 一 系列 已 知 的 数据 点 ，kind 参数 是 插值 类 型 ， 可 以 是 字符 串 或 整数 ， 
它 给 出 插值 的 B 样 条 曲线 的 阶 数 ， 可 以 有 如 下 候选 值 : 
e Zero、mearest: 阶梯 插值 ， 相 当 于 0 阶 B 样 条 曲线 。 
e slinear、linear: 线性 插值 ， 用 一 条 直线 连接 所 有 的 取样 点 ， 相 当 于 一 阶 B 样 条 曲线 ， 
slinear 使 用 扩展 库 中 的 相关 函数 计算 , 而 tinear 则 直接 使 用 Python 编写 的 函数 进行 运算 ， 
其 结果 一 样 。 
equadratic、'cubic: 二 阶 和 三 阶 B 样 条 曲线 ， 更 高 阶 的 曲线 可 以 直接 使 用 整数 值 指定 。 
interpld 对 象 可 以 计算 x 的 取 值 范围 之 内 任意 点 的 函数 值 。 它 可 以 像 函 数 一 样 直接 调用 ， 和 
Numpy 的 ufunc 函数 一 样 能 对 数组 中 的 每 个 元 素 进行 计算 ， 并 返回 一 个 新 的 数组 。 
下 面 的 程序 演示 了 kind 参数 以 及 与 其 对 应 的 插值 曲线 ， 结 果 如 图 3-38 所 示 。 程 序 中 我 们 
使 用 循环 对 相同 的 数据 进行 4 种 不 同 阶 数 的 插值 运算 。@ 首 先 使 用 数据 点 创建 一 个 interpld 对 象 
f， 通 过 kind 参数 指定 其 阶 数 。@ 调 用 f0 计 算出 一 系列 的 插值 结果 。 本 例 中 ， 决 定 插值 曲线 的 
数据 点 一 共有 11 个 ， 插 值 之 后 的 曲线 数据 点 有 101 个 。 


个 高 次 interp1d0 插 值 的 运算 量 很 大 ， 因 此 对 于 点 数 较 多 的 数据 ， 建 议 使 用 后 面 介绍 的 
UnivariateSpline()。 


from scipy import interpolate 


x = np.linspace(0, 10, 11) 
y = np.sin(x) 


xnew = np.linspace(8, 106, 181) 

pl.plot(x,y, 'ro') 

for kind in ['nearest', 'zero', 'slinear', 'quadratic']: 
f = interpolate.interpld(x,y,kind=kind) © 
ynew = f(xnew) © 
pl.plot(xnew, ynew, label=str(kind)) 


pl.legend(loc="lower right') 


' 


— nearest I 
— Zero 

-一 slinear 
-一 quadratic 


图 3-38 intempld 的 各 阶 插值 
1. 外 推 和 Spline 拟 合 
上 节 所 介绍 的 interpld 类 要 求 其 参数 x 是 一 个 递增 的 序列 , 并且 只 能 在 x 的 取 值 范 围 之 内 进 
行内 插 计 算 ， 不 能 用 它 进行 外 推 运算 ， 即 计算 x 的 取 值 范围 之 外 的 数据 点 。UnivariateSpline 类 
的 插值 运算 比 interpld 更 高 级 ， 它 支持 外 推 和 拟 合 运算 ， 其 调用 形式 如 下 : 
UnivariateSpline(x，y，w=None，bbox=[None，None]，k=3，s=None) 
。 x、y 是 保存 数据 点 的 X-Y 坐标 的 数组 ， 其 中 x 必须 是 递增 序列 。 
e 内 是 为 每 个 数据 点 指定 的 权重 值 。 
@ 


k 为 样 条 曲线 的 阶 数 。 

es 是 平滑 系数 , 它 使 得 最 终生 成 的 样 条 曲线 满足 条 件 : Zai(wi' (yi 一 spline(xi)))? < s。 
即 当 s >0 时 ， 样 条 曲线 并 不 一 定 通过 各 个 数据 点 。 为 了 让 曲线 通过 所 有 数据 点 ， 必 须 
将 s 参 数 设 置 为 0。 此外, 还 可 以 使 用 InterpolatedUnivariateSpline 类 , 它 与 UnivariateSpline 
的 唯一 区 别 就 是 它 通过 所 有 的 数据 点 ， 相 当 于 将 s 设 置 为 0。 

下 面 的 程序 演示 了 使 用 UnivariateSpline 对 数据 进行 插值 、 外 推 以 及 样 条 曲线 拟 合 : 


@ 如 图 3-39( 上 ) 所 示 ，UnivariateSpline 能 够 进行 外 推 运算 ， 虽 然 输 入 数据 中 没有 X 轴 大 于 
10 的 点 ， 但 是 它 能 计算 出 X 轴 在 0 到 12 的 插值 结果 。 在 XX 轴 大 于 10 的 部 分 ， 样 条 曲线 仍然 呈 
现 出 和 正弦 波 类 似 的 形状 ， 越 远离 输入 数据 范围 ， 误 差 会 越 大 ， 因 此 外 推 的 范围 是 有 限 的 。 
于 s 参 数 为 0， 因此 插值 曲线 经 过 所 有 的 数据 点 。 

@ 图 3-39( 下 ) 则 显示 了 s 参数 不 为 零 时 的 结果 ,对 于 带 噪声 的 输入 数据 , 选择 合适 的 s 参数 
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能 够 使 得 样 条 曲线 接近 无 噪声 时 的 波形 ， 可 以 把 它 看 作 使 用 样 条 曲线 对 数据 进行 拟 合 运算 。 


xl = np.linspace(6，19，26) 

yl = np.sin(x1) 

sx1 = np.linspace(8, 12, 188) 

sy1 = interpolate.UnivariateSpline(x1, yl1, s=8)(sx1) © 


x2 = np.linspace(86，26，266) 

y2 = np.sin(x2) + np.random.standard_normal(len(x2))*0.2 
sx2 = np.linspace(6，26，2666) 

| spline2 = interpolate.UnivariateSpline(x2, y2, s=8) ©@ 

! sy2 = spline2(sx2) 


pl.figure(figsize=(8, 5)) 
pl.subplot(211) 
pl.plot(x1，y1，"."，label=u" 数 据点 ") 


pl.plot(x2，y2，"."，label=u" 数 据点 ") 
pl.plot(sx2,sy2，linewidth=2，label=u"spline 曲线 ") 
pl.plot(x2，np.sin(x2)，label=u" 无 噪声 曲线 ") 
pl.legend() 


儿 pl.plot(sx1，sy1，label=u"spline 曲线 ") 
3 pl.legend() 

数 

香 pl.subplot(212) 

算 

库 


* 。 数据 点 
一 spline 曲 线 


图 3-39 使 用 UnivariateSpline 进行 插值 ， 外 推 (上 ) 和 数据 拟 合 (下 ) 
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& 标 。 下 


此 


当 曲 线 为 三 阶 曲线 时 ，UnivariateSplinerootsO 可 以 用 于 计算 曲线 与 y = 0 的 交点 横 
面 显示 了 图 3-39C 下 ) 中 的 曲线 与 X 轴 的 6 个 交点 的 横 坐 标 : 


print np.array_str( spline2.roots()，precision=3 ) 
[ 3.288 6.329 9.296 12.578 15.75 18.865] 


如 果 需 要 计算 曲线 与 任意 横 线 的 交点 , 可 以 事先 将 曲线 的 拟 合 数据 在 立轴 方向 上 进行 平移 。 
但 若 要 计算 与 多 条 y=c 横 线 的 交点 ， 则 需要 对 同样 的 数据 进行 平移 和 拟 合 多 次 。 

@ 下 面 的 root_at0 通 过 直接 修改 拟 合 曲线 的 参数 ， 实 现 曲线 的 平移 ， 从 而 可 以 计算 与 任意 
横 线 的 交点 。@ 将 roots_at0 动 态 添加 为 UnivariateSpline 类 的 方法 。@ 对 多 条 横 线 求 交点 ， 并 进 
行 绘图 ， 其 结果 如 图 340 所 示 。 


def roots at(self, v): © 
coeff = self.get coeffs() 
coeff -=V 
EPs 
root = self.roots() 
return root 
finally: 
Coeff += V 


interpolate.UnivariateSpline.roots at = roots at @ 
pl.plot(sx2,sy2，linewidth=2，label=u"spline 曲线 ") 


ax = pl.gca() 

for level in [8.5, 8.75, -60.5, -80.75]: 
ax.axhline(level, 1s=":", color="k") 
xr = spline2.roots_at(level) © 
pl.plot(xr, spline2(xr), "ro") 


图 3-40 计算 Spline 与 水 平 线 的 交点 
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2. 参数 插值 


前 面 介绍 的 插值 函数 都 需要 X 轴 的 数据 是 按照 递增 顺序 排列 的 ， 就 像 一 般 的 y=f(x) 函 数 
线 一 样 。 数 学 上 还 有 一 种 参数 曲线 ， 它 使 用 参数 t 和 两 个 函数 x=fKD、y=g(0 来 定义 二 维 平面 上 
的 一 条 曲线 , 例如 圆 形 、 心 形 等 曲线 都 是 参数 曲线 。 参数 曲线 的 插值 可 以 通过 splprep0 和 splev0 
实现 ， 这 组 函数 支持 高 维 空间 的 曲线 的 插值 ， 这 里 以 二 维 曲 线 为 例 介绍 其 用 法 。 

@ 首 先 调用 splprep0, 其 第 一 个 参数 为 一 组 一 维 数组 , 每 个 数组 是 各 点 在 对 应 轴 上 的 坐标 。 
s 参数 为 平滑 系数 ， 与 UnivariateSpline 的 含义 相同 。splprep0 返 回 两 个 对 象 ， 其 中 tck 是 一 个 元 
组 ， 它 包含 了 插值 曲线 的 所 有 信息 。t 是 自动 计算 出 的 参数 曲线 的 参数 数组 。 

@ 调 用 splev0 进 行 插值 运算 ， 其 第 一 个 参数 为 一 个 新 的 参数 数组 ， 这 里 将 t 的 取 值 范围 等 
分 200 份 ， 第 二 个 参数 为 splprep0 返 回 的 第 一 个 对 象 。 实 际 上 ,参数 数组 t 是 正规 化 之 后 的 各 个 
线段 长 度 的 累计 ， 因 此 t 的 范围 为 0 到 1。 

其 结果 如 图 341 所 示 ， 图 中 比较 了 平滑 系数 为 0 和 le-4 时 的 插值 曲线 。 当 平滑 系数 为 0 
时 ， 插 值 曲线 通过 所 有 的 数据 点 。 


x = [ 4.913， 4.913， 4.918, 4.938， 4.955, 4.949， 4.911， 
4.848， 4.864， 4.893， 4.935， 4.981， 5.61 ， 5.621] 


y= [ 5.2785， 5.2875, 5.291 ， 5.289 ， 5.28 ，5.26 ，5.245 ， 
5.245 ， 5.2615， 5.278 ， 5.2775， 5.261 ， 5.245 ， 5.241] 


pl.plot(x, y, "0") 
for s in (0, 1e-4): 
tck, t = interpolate.splprep([x, y], s=s) © 
xi, yi = interpolate.splev(np.linspace(t[8], t[-1], 288), tck) ©@ 


pl.plot(xi, yi, lw=2, label=U"s=%g" % s) 


pl.legend() 


4 L 
4.80 4.85 4.90 4.95 5.00 5.05 


图 3-41 使 用 参数 插值 连接 二 维 平面 上 的 点 


3. 单调 插值 

前 面 介绍 的 几 种 插值 方法 不 能 保证 数据 点 的 单调 性 , 即 曲线 的 最 值 可 能 出 现在 数据 点 之 外 
的 地 方 。PchipInterpolator 类 (别名 pchip) 使 用 单调 三 次 插值 ， 能 够 保证 曲线 的 所 有 最 值 都 出 现在 
数据 点 之 上 。 下 面 的 程序 用 pchip0 对 数据 点 进行 插值 ， 并 绘制 其 一 阶 导数 曲线 ， 由 图 342 的 导 
数 曲 线 可 知 ， 所 有 最 值 点 处 的 导数 都 为 0。 


012 4 5 

y = [1, 2, 1.5, 2.5, 3, 2.5] 

xs = np.linspace(x[6]，x[-1]，166) 
curve = interpolate.pchip(x, y) 
ys = curve(xs) 


dys = curve.derivative(xs) 
pl.plot(xs, ys, label=u"pchip") 
pl.plot(xs，dys，label=u" 一 阶 导 数 ") 
pl.plot(x, y, "0o") 
pl.legend(loc="best") 

pl.grid() 

pl.margins(8.1, 8.1) 


0 1 2 3 4 5 


图 3-42 单调 插值 能 保证 两 个 点 之 间 的 曲线 为 单调 递增 或 递减 
3.7.2 ”多维 插 值 
使 用 interp2d0 可 以 进行 二 维 插值 运算 。 它 的 调用 形式 如 下 : 


interp2d(x, y, z, kind="linear'’, ...) 


其 中 x、y、z 都 是 一 维 数组 ， 如 果 传 入 的 是 多 维 数组 ， 则 先 将 其 转 为 一 维 数组 。kind 参数 
指定 插值 运算 的 阶 数 ， 可 以 为 inear、'cubic、'quintic 。 

下 面 的 例子 对 某 个 函数 曲面 上 的 网 格 点 进行 二 维 插值 , 效果 如 图 343 所 示 。 其 中 左 图 显示 
插值 之 前 的 数据 ， 而 右 图 显示 插值 运算 后 得 到 的 结果 。 
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def func(x, y): © 
return (x+y)*np.exp(-5.6*(x**2 + y**2)) 


# X-Y 轴 分 为 15*15 的 网 格 
y, x = np.mgrid[-1:1:15j, -1:1:15j] @ 
fvals = func(x，y) # 计算 每 个 网 格 点 上 的 函数 值 


# 二 维 插值 
newfunc = interpolate.interp2d(x, y, fvals, kind='cubic') © 


# 计算 16e*18e 的 网 格 上 的 插值 

xnew = np.linspace(-1,1,166) 
ynew = np.linspace(-1,1,166) 
fnew = newfunc(xnew，ynew) @ 


fvals 


fnew 


-10 -1.0 
= 上 0.0 0.5 1.0 -1.0 05 0.0 0.5 1.0 


图 3-43 使 用 interp2d 类 进行 二 维 插值 


@func 是 计算 曲面 上 各 点 高 度 的 函数 。@ 计 算 X、Y 轴 在 -1 到 1 范围 之 内 ， 大 小 为 15X15 
的 等 间距 网 格 上 各 点 的 高 度 。 注 意 所 得 到 的 二 维 数组 fvals 的 第 0 轴 与 Y 轴 对 应 ， 第 一 轴 与 X 
轴 对 应 。@ 使 用 网 格 上 各 点 的 X、Y 和 世 轴 的 坐标 创建 interp2d 对 象 ， 这 里 我 们 使 用 二 阶 插值 
曲面 , @interp2d 对 象 可 以 像 函 数 一 样 调用 , 我 们 用 它 计算 插值 曲面 在 一 个 更 密 网 格 中 的 高 度 值 。 
注意 这 里 的 参数 是 两 个 一 维 数组 ， 分 别 指定 网 格 的 X-Y 轴 坐 标 ， 而 不 需要 通过 mgrid 创建 网 格 


1. griddata 


| interp2d 类 只 能 对 网 格 形状 的 取样 值 进行 插值 运算 ， 如 果 需 要 对 随机 散 列 的 取样 点 进行 插 
; 值 ， 则 可 以 使 用 griddata0。 其 调用 形式 如 下 : 


griddata(points, values, xi, method="linear', fill value=nan) 


其 中 points 表示 开 维 空间 中 的 坐标 ， 它 可 以 是 形状 为 ON.I9 的 数组 ， 也 可 以 是 一 个 有 K 个 数 
组 的 序列 , N 为 数据 的 点 数 。values 是 points 中 每 个 点 对 应 的 值 。xi 是 需要 进行 插值 运算 的 坐标 ， 
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插值 。 


其 形状 为 (M, 间 。method 有 三 个 选项 一 nearest、'inear、'cubic， 分 别 对 应 0 阶 、1 阶 以 及 3 阶 


下 面 是 griddata0 的 演示 程序 ， 其 输出 如 图 344 所 示 。 左 图 与 'hearest 算 法 对 应 , 平面 上 每 个 
点 都 被 填充 为 与 它 最 近 的 采样 点 的 数据 ， 因 此 图 中 由 许多 相同 颜色 的 色 块 构成 。"inear 和 'cubic' 
算法 只 对 采样 点 构成 的 凸 包 区 域 进行 插值 ， 区 域 之 外 采用 fL_value 进行 填充 。 中 图 和 右 图 中 的 


白色 区 域 为 插值 的 凸 包 区 域 之 外 。 


griddata0 使 用 欧 几 里 得 距离 计算 插值 .如 果 开 维 空间 中 每 个 维度 的 取 值 范围 相差 较 大 ， 
则 应 先 将 数据 正规 化 ， 然 后 使 用 griddata0 进 行 插值 运算 。 


# 计算 随机 N 个 点 的 坐标 ， 以 及 这 些 点 对 应 的 函数 值 
N = 266 

np.random. seed(42) 

x = np.random.uniform(-1, 1, N) 

y = np.random.uniform(-1, 1, N) 

z = func(x, y) 


yg, Xxg = np.mgrid[-1:1:166j，-1:1:166j] 
xi = np.c_[xg.ravel(), yg.ravel()] 


methods = 'nearest', 'linear', 'cubic' 


zgs = [interpolate.griddata((x, y), z, xi, method=method).reshape(160, 160) 
for method in methods] 


-10 -05 00 
linear 


0.5 1 -10 -0.5 0.0 0.5 1.0 


图 3-44 使 用 gridata 进行 二 维 插值 


2. 径 向 基 函 数 插值 


径 向 基 函 数 (radial basis function) 插 值 算法 也 可 以 


日 于 高 维 随机 散布 点 的 插值 所 谓 径 向 基 函 


数 ， 是 指 函 数值 只 与 某 特定 点 的 距离 相关 的 一 类 函数 中 (lx 一 xi 路， 其 中 xi 是 某 个 给 定 取 样 点 的 
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坐标 。 使 用 这 些 中 函数 ， 可 以 近似 表示 N 维 空间 中 的 函数 ; 


N 
yc = 》w bx—xil) 


| 为 了 方便 读者 理解 RBF， 下 面 先 看 一 个 一 维 插值 的 例子 ， 结 果 如 图 3-45 所 示 。 图 中 显示 
: 了 三 种 函数 对 应 的 插值 曲线 : multiquadric、gaussian 和 linear。 


from scipy.interpolate import Rbf 


xl = np.array([-1，6，2.6，1.6]) 
yl = np.array([1.96，6.3，-6.5，6.8]) 


funcs = ['multiquadric', 'gaussian', 'linear'] 

nx = np.linspace(-3，4，166) 

rbfs = [Rbf(x1，y1，function=fname) for fname in funcs] © 
rbf_ ys = [rbf(nx) for rbf in rbfs] @ 


op 
a 
3 
病 | 15 T T T 
数 =- 一 multiquadric 
值 
计 10 
算 
库 0.5 

0.0 

-0.5 

-1.0 

-3 * | 0 1 2 3 4 


图 345 一 维 RBF 插 值 


@ 使 用 表示 取样 点 的 x 和 y 数组 创建 一 个 bf 对象， 并 通过 function 参数 指定 所 使 用 的 径 向 
基 函 数 。Brbf 对 象 可 以 像 函 数 一 样 被 调用 , 我 们 用 它 计算 以 nx 为 横 坐标 对 应 的 插值 曲线 的 值 。 
tf 对象 的 nodes 属性 保存 wi 系数 : 
for fname, rbf in zip(funcs, rbfs): 
print fname, rbf.nodes 
multiquadric [ -3.79576791 9.827837861 5.88198777 -11.13163777] 


gaussian [ 1.78616841 -1.83986382 -1.69565667 2.5266374 ] 
linear [-6.26666667 08.6 8.73333333 -6.9 ] 


下 面 的 程序 演示 二 维 径 向 基 函 数 择 值 ， 效 果 如 图 346 所 示 。 


rbfs = [Rbf(x, y, z, function=fname) for fname in funcs] 
rbf zg = [rbf(xg, yg).reshape(xg.shape) for rbf in rbfs] 


180 ， 


-0 -05 00 05 10 -0 -05 00 05 10 0 -05 0.0 
multiquadric gaussian linear 


图 3-46 二 维 径 向 基 函 数 插值 
某 些 径 向 基 函 数 可 以 通过 epsilon 参数 指定 其 作用 范围 , 该 值 越 大 每 个 插值 点 的 作用 范围 越 


广 ， 所 得 到 的 曲面 也 就 越 平滑 。 下 面 的 代码 演示 gaussian 径 向 基 函 数 的 epsilon 参数 与 插值 结果 
的 关系 ， 效 果 如 图 3-47 所 示 。 


epsilons = 9.1，6.15，6.3 
rbfs = [Rbf(x, y, z, function="gaussian", epsilon=eps) for eps in epsilons] 
zgs = [rbf(xg, yg).reshape(xg.shape) for rbf in rbfs] 


1.0| 


0.5 


0.0 


-05 


-1.0 


-0 -05 00 05 10 -10 -05 00 05 10 
eps=0.1 eps=0.15 


图 3-47 epsilon 参数 指定 径 向 基 函 数 中 数据 点 的 作用 范围 


3.8 ”稀疏 矩阵 -sparse 


A 与 本 节 内 容 对 应 的 Notebook 为 : 03-scipy/scipy-810-sparse.ipynb。 


在 科学 与 工程 领域 求解 线性 模型 时 经 常 出 现 许 多 大 型 的 矩阵 , 这 些 矩 阵 中 大 部 分 的 元 素 都 
为 0， 被 称 为 稀 玻 矩阵 。 用 NumPy 的 ndarray 数组 保存 这 样 的 矩阵 会 很 浪费 内 存 ， 由 于 矩阵 的 
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稀 玻 特性 ， 可 以 通过 只 保存 非 零 元 素 的 相关 信息 ， 从 而 节约 内 存 的 使 用 。 此 外 ， 针 对 这 种 特殊 
结构 的 矩阵 设计 运算 函数 ， 也 可 以 提高 矩阵 的 运算 速度 。 

scipy.sparse 中 提供 了 多 种 表示 稀 玻 矩阵 的 格式 ，scipy.sparselinalg 提供 了 对 这 些 矩 阵 进行 线 
性 代数 运算 的 函数 ，scipy.sparse.csgraph 提供 对 用 稀 踊 和 窍 阵 表示 的 图 进行 搜索 的 函数 。 本 节 首先 
介绍 表示 稀 玻 矩阵 的 各 种 格式 ， 然 后 介绍 如 何 使 用 csgraph 中 的 函数 搜索 最 佳 路 径 ， 而 在 本 书 
最 后 一 章 中 会 介绍 使 用 稀 玻 矩阵 的 线性 代数 运算 函数 解决 实际 问题 的 例子 。 


3.8.1 稀疏 和 矩阵 的 存储 形式 


scipy.sparse 中 提供 了 多 种 表示 稀 玻 矩阵 的 格式 , 每 种 格式 都 有 不 同 的 用 处 , 其 中 dok_matrix 
和 身 _matrix 适合 逐渐 添加 元 素 。 

dok_matrix 从 dict 继承 而 来 ， 它 采用 字典 保存 矩阵 中 的 非 零 元 素 : 字典 的 键 是 一 个 保存 元 
素 ( 行 , 列 ) 信 息 的 元 组 ， 其 对 应 的 值 为 矩阵 中 位 于 ( 行 , 列 ) 中 的 元 素 值 。 显 然 字典 格式 的 稀 玻 算 阵 
很 适合 单个 元 素 的 添加 、 删 除 和 存 取 操作 。 通 常用 来 逐个 添加 非 零 元 素 ， 然 后 转换 成 其 他 支持 
快速 运算 的 格式 。 


from scipy import sparse 

a = sparse.dok_matrix((10, 5)) 
a[2:5, 3] = 1.6，2.6，3.6 
print a.keys() 

print a.values() 

LD (de 3 
[1.6，2.6，3.6] 


IlL_matrix 使 用 两 个 列表 保存 非 零 元 素 。data 保存 每 行 中 的 非 零 元 素 ，rows 保存 非 零 元 素 所 
在 的 列 。 这 种 格式 也 很 适合 逐个 添加 元 素 ， 并 且 能 快速 获取 行 相关 的 数据 。 


b = sparse.1il_matrix((16，5)) 


b[2, 3] = 1.6 
b[3, 4] = 2.6 
b[3, 2] = 3.6 


print b.data 
print b.rows 


[[] [] [1.8] [3.6, 2.9] [] [] [] [] [] []] 
oa a en ea a 


coo_matrix 采用 三 个 数组 row、col 和 data 保存 非 零 元 素 的 信息 。 这 三 个 数组 的 长 度 相 
row 保存 元 素 的 行 ,col 保存 元 素 的 列 ,data 保存 元 素 的 值 .coo_matrix 不 支持 元 素 的 存 取 和 增 
一 且 创 建 后 ， 除 了 将 之 转换 成 其 他 格式 的 和 矩阵， 几乎 无 法 对 其 做 任何 操作 和 矩阵 运算 。 

coo_matrix 支持 重复 元 素 ， 即 同一 行列 坐标 可 以 出 现 多 次 ， 当 转换 为 其 他 格式 的 矩阵 时 ， 
将 对 同一 行列 坐标 对 应 的 多 个 值 进行 求 和 。 在 下 面 的 例子 中 ，(2, 3) 对 应 两 个 值 : 1 和 10。 在 将 


可 


其 转换 为 ndarray 数组 时 把 这 两 个 值 加 在 一 起 ， 所 以 最 终 窍 阵 中 (2,3) 坐 标 上 的 值 为 11。 

许多 稀 玻 矩阵 的 数据 都 是 采用 这 种 格式 保存 在 文件 中 的 ， 例 如 某 个 CSV 文件 中 可 能 有 这 
样 三 列 :“ 用 户 ID, 商品 ID, 评价 值 ”。 采用 numpy.loadtxt 或 pandas.read_csv 将 数据 读 入 之 后 ， 
可 以 通过 coo_matrix 快速 将 其 转换 成 稀 玻 矩阵 : 矩阵 的 每 行 对 应 一 位 用 户 , 每 列 对 应 一 件 商 品 ， 
而 元 素 值 为 用 户 对 商品 的 评价 。 


row = [2, 3, 3, 2] 

CEol si[3 47 2 3] 

data = [1, 2, 3, 10] 

c = sparse.coo matrix((data, (row, col)), shape=(5, 6)) 
print c.col, c.row, c.data 

print c.toarray() 

Ev I me a | 


[[e60600 0] 
[eee8 6] 
[e6011 0 0] 
[e030 2 0] 
[e600 0 0]] 


3.8.2 ”最 短路 径 


稀 芍 和 矩阵 w 可 以 用 于 表示 图 ，wE, j] 保 存 图 中 节点 i 和 节点 j 之 间 路 径 的 权 值 。 若 节点 i 与 
j 之 间 没 有 直接 路 径 , 则 稀疏 窍 阵 不 包含 该 下 标 ,， 因 此 使 用 稀 玻 矩阵 可 以 表示 权 值 为 0 的 路 径 。 

我 们 对 图 348 中 A、B、C、D 这 4 个 节点 分 别 编号 为 0、1、2、3， 于 是 可 以 构造 如 下 稀 
琉 矩 阵 。 注 意 当 将 稀 琉 矩 阵 转换 为 数组 显示 时 ， 和 矩阵 中 未 设置 的 值 默 认为 0， 这 并 不 表示 图 中 
有 权 值 为 0 的 边 。 当 用 稀 玻 矩阵 表示 无 向 图 时 ， 只 需要 设置 wfi,j] 或 wj, 避 中 的 一 个 即 可 。 


图 3-48 使 用 稀疏 矩阵 可 以 表示 有 向 图 


WwW = sparse.dok_matrix((4，4)) 


edges = [(8, 1, 10), (1, 2，5)，(6，2，3)， 
(2, 3, 7), (3, 8, 4), (3, 2, 6)] 


for i, j, v in edges: 
w[i, j] =v 


Ww.todense() 
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使 用 scipy.sparse.scgraph 模块 可 以 在 图 中 寻找 最 短路 径 , 下 面 通过 一 个 例子 说 明 最 短路 径 函 
数 的 用 法 。 

图 3-49( 左 ) 是 一 幅 迷 富 图 像 ， 其 中 的 黑色 曲线 是 用 scgraph 模块 求 得 的 从 坐标 Gx, sy) 到 = 
ey) 的 最 短路 径 。@ 为 了 方便 计算 ， 下 面 先 将 彩色 迷宫 图 像 通 过 阔 值 转换 为 黑白 二 值 图 像 ， 
色 表 示 墙 壁 ， 白 色 表 示 通 路 。@@ 为 了 避免 将 迷宫 外 部 的 余 白 当 作 通路 ， 下 面 的 程序 在 中 部 两 侧 
添加 了 两 条 黑色 线段 ， 将 余 白 分 隔 为 上 下 两 个 部 分 。 经 过 上 述 处 理 之 后 的 迷宫 如 图 3-49( 右 ) 
所 示 。 

img = pl.imread("maze.png") 

sx, Sy = (460, 979) 

ex, ey = (398, 25) 

bimg = np.all(img > 8.81, axis=2) © 

W = bimg. shape 


x8, x1 = np.where(bimg[H//2, 
bimg[H//2, :x8e] = 6 
bimg[H//2, x1:] = 6 


:]==8)[e][[e, -1]] @ 


我 们 将 迷宫 
*W+x 计 算 。 
为 QN, 2) 的 edges 数组 中 ， 
值 均 为 1。 


中 所 有 的 像素 都 当 作 图 中 的 节点 ， 节 点 序号 与 像素 坐标 (x,y) 的 关系 使 用 idx =y 
@ 找 到 所 有 上 下 相 邻 、 左 右 相 邻 的 白色 像素 对 ， 将 其 对 应 的 节点 序号 保存 在 形状 
NN 为 图 所 包含 的 边 数 。@ 通 过 coo_matrix0 创 建 稀 足 矩阵， 所 有 边 的 权 


# 上 下 相 邻 的 白色 像素 

mask = (bimg[1:, :] & bimg[:-1, :]) 

idx = np.where(mask.ravel())[8] 

vedge = np.c_[idx, idx + W] 
pl.imsave("tmp.png", mask, cmap="gray") 


# 左 右 相 邻 的 白色 像素 
mask = (bimg[:, 1:] & bimg[:, 
y, x = np.where(mask) 


:-1]) 


idx =y*W+x 


hedge = np.c_[idx, idx + 1] 


edges = np.vstack([vedge，hedge]) © 


values = np.ones(edges.shape[6]) 
WwW = Sparse.coo matrix((values, (edges[:, 8], edges[:, 1])), @ 
shape=(bimg.size, bimg.size)) 


接 下 来 导入 csgraph 模块 ， 并 调用 dijkstra0 计 算 从 编号 为 startid 的 节点 出 发 到 达 所 有 其 他 节 
点 的 最 短路 径 。directed 参数 为 False 表示 无 向 图 ,为 了 计算 最 短路 径 , 需要 设置 rrtum_predecessors 
参数 为 Tue。 所 返回 的 数组 4 和 p 的 形状 为 indices 参数 的 长 度 ， 图 的 总 节点 数 )。 


from scipy.sparse import csgraph 

startid = sy * W + sx 

endid =ey*W+ex 

d, p = csgraph.dijkstra(w, indices=[startid], return_predecessors=True, directed=False) 
d.shape p.shape 


(1, 801600) 〈1，861666) 


df, 中 保存 从 编号 为 indices 自 的 节点 到 编号 为 j 的 节点 的 距离 。 如 果 两 个 节点 之 间 无 路 径 联 
通 , 值 为 inf。 下面 计算 从 起 点 无 法 到 达 的 节点 数 ， 这 些 节 点 包括 迷宫 中 黑色 像素 表示 的 墙壁 以 
及 被 黑色 像素 完全 包围 的 区 域 。 


np.isinf(d[8@]).sum() 
322324 


pb, 中 保存 节点 indices 自 到 节点 j 的 路 径 中 最 后 一 个 节点 的 编号 。 下 面 的 代码 从 编号 为 endid 
的 节点 开始 回溯 ， 直 到 找到 startid 节点 为 止 。 将 访问 过 的 节点 保存 到 path 中 ， 将 path 反 转 即 可 
得 到 从 起 点 到 终点 的 路 径 。 


path = [] 
node_id = endid 
while True: 
path.append(node_id) 
if node_id == startid or node id < @: 
break 
node_id = p[8, node_id] 
path = np.array(path) 


最 后 ， 在 原来 的 迷宫 图 像 中 将 path 经 过 的 像素 涂 黑 ， 得 到 图 3-49( 左 ) 中 的 路 径 。 
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图 3-49 用 dijkstra 计算 最 短路 径 


人 个 scpy2.scipy.hrd_solver 使 用 csgraph 计算 华容 道 游 戏 “ 横 刀 立 马 ” 布 局 步 数 最 少 的 
[DVD] 


解法 。 


在 上 面 的 迷宫 中 ， 两 个 相 邻 白色 像素 之 间 的 路 径 权 值 均 为 1， 因 此 搜索 到 的 最 佳 路 径 为 最 


短路 径 


。 而 许多 游戏 地 图 中 的 路 径 搜索 会 考虑 地 形 因 素 ， 这 时 可 以 根据 不 同 的 地 形 设置 不 同 大 


小 的 路 径 权 值 ， 这 样 最 佳 路 径 就 是 使 所 有 权 值 之 和 最 小 的 路 径 。 


3.9 图 像 处 理 -ndimage 


全 与 本 节 内 容 对 应 的 Notebook 为 : 03-scipy/scipy-900-ndimage.ipynb。 


[pvD] 


scipy.ndimage 是 一 个 处 理 多 维 图 像 的 函数 库 ， 其 中 又 包括 以 下 儿 个 模块 : 


filters: 图 像 滤 波 器 。 

fourier: 傅立叶 变换 。 

interpolation: 图 像 的 插值 、 旋 转 以 及 仿 射 变换 等 。 
measurements: 图 像 相关 信息 的 测量 。 
morphology: 形态 学 图 像 处 理 。 


更 强大 的 图 像 处 理 库 


scipy.ndimage 只 提供 了 一 些 基础 的 图 像 处 理 功能 ， 下 面 是 一 些 更 强大 的 图 像 处 理 库 : 
@ OpenCV: 它 是 使 用 C/C++ 开发 的 计算 机 视觉 库 ， 本 书 将 用 一 整 章 的 篇 幅 介 绍 OpenCV 


提供 的 Python 调用 接口 的 用 法 。 


e SimpleCV: 对 多 个 计算 机 视觉 库 进 行 包 装 ， 提 供 了 一 套 更 方便 、 统 一 的 Python 调用 接口 。 
e scikit-image: 使 用 Python 开发 的 图 像 处 理 库 ， 高 速 运算 部 分 多 采用 Cython 编写 。 


e@ Mahotas: 采用 Python 和 C++ 开发 的 图 像 处 理 库 。 
3.9.1 形态 学 图 像 处 理 


本 节 介绍 如 何 使 用 morphology 模块 实现 二 值 图 像 处 理 。 二 值 图 像 中 每 个 像素 的 颜色 只 有 两 
种 : 黑色 和 白色 。 在 NumPy 中 可 以 用 二 维 布尔 数组 表示 : False 表示 黑色 ，Tme 表示 白色 。 也 
可 以 用 无 符号 单字 节 束 型 (int8) 数 组 表示 : 0 表示 黑色 ， 非 0 表示 白色 。 


下 面 的 两 个 函数 用 于 显示 形态 学 图 像 处 理 的 结果 : 
import numpy as np 


def expand_image(img, value, out=None, size = 10): 
if out is None: 
w, h = img.shape 
out = np.zeros((w*size, h*size),dtype=np.uint8) 


tmp = np.repeat(np.repeat(img, size,0), size,1) 
out[:,:] = np.where(tmp, value, out) 
out[::size,:] = 6 

out[:,::size] = 6 

return out 


def show image(*imgs): 
for idx, img in enumerate(imgs, 1): 
ax = pl.subplot(1, len(imgs), idx) 
pl.imshow(img, cmap="gray") 
ax.set_axis off() 
pl.subplots_adjust(8.62, 68, 8.98, 1, 0.02, 0) 


1. 膨胀 和 腐蚀 


二 值 图 像 最 基本 的 形态 学 运算 是 膨胀 和 腐蚀 。 膨 胀 运算 是 将 与 某 物体 (白色 


区 域 ) 接 触 的 所 


有 背景 像素 (黑色 区 域 ) 合 并 到 该 物体 中 的 过 程 。 简 单 来 说 ， 就 是 对 于 原始 图 像 中 的 每 个 白色 像 
”是 一 个 模糊 概念， 在 实 


素 进行 处 理 ， 将 其 周围 的 黑色 像素 都 设置 为 白色 像素 。 这 里 的 “ 周 


国 


际 运算 时 ， 需 要 明确 给 出 “周围 ”的 定义 。 图 3-50 是 膨胀 运算 的 一 个 例子 ， 其 中 左 图 是 原始 图 
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像 , 中 间 的 图 是 四 连通 定义 的 “周围 ”的 膨胀 效果 , 右 图 是 八 连 通 定义 的 “周围 ”的 膨胀 效果 。 
图 中 用 灰色 方块 表示 由 膨胀 处 理 添加 进 物体 的 像素 。 


from scipy.ndimage import morphology 


def dilation demo(a, structure=None): 
b = morphology.binary_dilation(a, structure) 
img = expand_image(a, 255) 
return expand_image(np.logical xor(a,b), 1506, out=img) 


a = pl.imread("scipy_ morphology_demo.png")[:,:,8].astype(np.uint8) 
jimgl = expand_image(a, 255) 


img2 = dilation_demo(a) 
img3 = dilation demo(a, [[1,1,1],[1,1,1],[1,1,1]]) 
Show_image(img1, img2, img3) 


图 3-50 四 连通 和 八 连通 的 有 


四 连通 包括 上 下 左右 4 个 像素 ， 而 八 连通 则 还 包括 4 个 斜 线 方向 上 的 邻接 像素 。 它 们 都 可 
以 使 用 下 面 的 正方 形 和 矩阵 定义 ， 其 中 正中 心 的 元 素 表示 当前 要 进行 运算 的 像素 ， 而 其 周围 的 1 
和 0 表示 对 应 位 置 的 像素 是 否 算 作 其 “周围 ”像素 。 这 种 矩阵 描述 了 周围 像素 和 当前 像素 之 间 


的 关系 ， 被 称 作 结构 元 素 (stmucturing element)。 


四 连通 八 连通 

916 二 入 谋 
和 二 
061i0 二 二 


假设 数组 a 是 一 个 表示 二 值 图 像 的 数组 ， 可 以 用 如 下 语句 对 其 进行 膨胀 运算 : 
binary_dilation(a) 

binary_dilation0 默 认 使 用 四 连通 进行 膨胀 运算 , 通过 stucture 参 数 可 以 指定 其 他 的 结构 元 素 。 
面 是 进行 八 连通 膨胀 运算 的 语句 : 


binary_dilation(a, structure=[[1,1,1],[1,1,1],[1,1,1]]) 


通过 设置 不 同 的 结构 元 素 , 能 够 实现 各 种 不 同 的 效果 , 图 3-51 显示 了 三 种 不 同 结构 元 素 的 
脱 胀 效 果 。 图 中 的 结构 元 素 分 别 为 : 

左 中 右 

66 616 06108 


二 人 和 919 .90910 
0866060606 616 6696 


img4 = dilation_demo(a，[[8,6,6],[1,1,1],[8,6,6]]) 
img5 = dilation_demo(a，[[8,1,6],[8,1,6],[6,1,6]]) 
img6 = dilation_demo(a，[[8,1,6],[6,1,6],[6,6,6]]) 


Show_image(img4, img5, img6) 


料 AdbS 


记 以 六 


图 3-51 不 同 结构 元 素 的 膨胀 效果 


binary_erosion0 的 腐蚀 运算 正好 和 膨胀 相反 ， 它 将 “周围 ”有 黑色 像素 的 1 公信 和 素 设 置 为 
黑色 。 图 3-52 是 四 连通 和 八 连通 腐蚀 的 效果 ， 图 中 用 灰色 方块 表示 被 腐蚀 的 像素 。 


def erosion_demo(a，structure=None) : 
b = morphology.binary_erosion(a，structure) 
img = expand_image(a，255) 
return expand_image(np.logical xor(a,b), 100, out=img) 


imgl = expand_image(a, 255) 
img2 = erosion_demo(a) 
img3 = erosion demo(a, [[1,1,1],[1,1,1],[1,1,1]]) 


Show_image(img1, img2, img3) 


图 3-52 四 连通 和 八 连通 的 腐蚀 运算 
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2. Hit 和 Miss 

Hit 和 Miss 是 二 值 形态 学 图 像 处 理 中 最 基本 的 运算 , 因为 几乎 所 有 其 他 的 运算 都 可 以 用 Hit 
和 Miss 的 组 合 推演 出 来 。 它 对 图 像 中 的 每 个 像素 周围 的 像素 进行 模式 判断 ,如 果 周 围 像素 的 黑 
白 模 式 符合 指定 的 模式 ， 将 此 像素 设 为 和 白色， 否则 设置 为 黑色 。 因 为 它 需要 同时 对 白色 和 黑色 
像素 进行 判断 ， 因 此 需要 指定 两 个 结构 元 素 。 进 行 Ht 和 Miss 运算 的 binary_hit_or_miss0 的 调用 
形式 如 下 : 


binary_hit_or miss(input, structure1l=None, structure2=None, ...) 


其 中 structurel 参数 指定 白色 像素 的 结构 元 素 ， 而 structure2 参数 则 指 六 象 素 的 结构 元 
素 。 图 3-53 是 binary_hit_or_miss0 的 运算 结果 。 其 中 左 图 为 原始 图 像 ， 中 图 为 使 用 下 面 两 个 结 


构 元 素 进 行 运算 的 结果 : 


白色 结构 元 素 ”黑色 结构 元 素 


e600 166 
196 8696 
生生 汪 e600 


图 3-53 Hit 和 Miss 运算 


在 这 两 个 结构 元 素 中 ，0 表示 不 关心 其 对 应 位 置 的 像素 的 颜色 ，1 表示 其 对 应 位 置 的 像素 
必须 为 结构 元 素 所 表示 的 颜色 。 因 此 通过 这 两 个 结构 元 素 可 以 找到 “下 方 三 个 像素 为 白色 ， 并 
是 左上 像素 为 黑色 的 白色 像素 ”。 

与 右 图 对 应 的 结构 元 素 如 下 ， 通 过 它 可 以 找到 “下 方 三 个 像素 为 白色 、 左 上 像素 为 黑色 的 
黑色 像素 ”。 


白色 结构 元 素 ”黑色 结构 元 素 


966 166 
e600 9816 
上: e000 


def hitmiss demo(a, structurel, structure2): 
b = morphology.binary_hit or miss(a, structure1l, structure2) 
img = expand_image(a, 160) 
return expand_image(b, 255, out=img) 


img1 = expand_image(a, 255) 


img2 = hitmiss_demo(a，[[6,6,6],[8,1,6],[1,1,1]]，[[1,9,6],[6,6,6],[8,9,6]]) 
img3 = hitmiss_demo(a，[[6,6,6],[8,6,6],[1,1,1]]，[[1,9,6],[6,1,8],[8,9,6]]) 


Show_image(img1, img2, img3) 


使 用 Hit 和 Miss 运算 的 组 合 ， 可 以 实现 复杂 的 图 像 处 理 。 例 如 文字 识别 中 常用 的 细 线 化 运 


算 就 可 以 用 一 系列 的 Hit 和 Miss 运算 实现 。 图 3-54 显示 了 细 线 化 处 理 的 效果 ， 实 现 程序 如 下 : 


def skeletonize(img): 
hl = np.array([[98, 8, 8],[9, 1, 98],[1, 1, 1]]) © 
ml = np.array([[1, 1, 1],[98, 8, 8],[98, 8, 9]]) 
h2 = np.array([[98, 8, 8],[1, 1, 8],[e, 1, 6]]) 
m2 = np.array([[98, 1, 1],[8, 8, 1],[e, 8, 6]]) 
ttliyt md] 
miss_list = [] 
for k in range(4): @ 
hit_list.append(np.rot96(h1，k)) 
hit_list.append(np.rot96(h2，k)) 
miss_list.append(np.rot96(m1，k)) 
miss_1ist.append(np.rot96(m2，k)) 
img = img.copy() 
while True: 
last = img 
for hit, miss in zip(hit list, miss_ list): 
hm = morphology.binary_hit or miss(img, hit, miss) © 
# 从 图 像 中 删除 hit_or_miss 所 得 到 的 白色 点 
img = np.logical_and(img, np.logical not(hm)) © 
# 如 果 处 理 之 后 的 图 像 和 处 理 前 的 图 像 相同 ， 则 结束 处 理 
if np.all(img == last): © 
break 


return img 


a = pl.imread("scipy_morphology_demo2.png")[:,:,8].astype(np.uint8) 


b = skeletonize(a) 
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图 3-54 使 用 Hit 和 Miss 进行 细 线 化 运算 


@ 以 图 3-55 所 示 的 两 个 结构 元 素 为 基础 ， 构 造 4 个 形状 为 3, 3) 的 二 维 数 组 : hl、ml、h2、 
m2。 其 中 hl 和 ml 对 应 图 中 左边 的 结构 元 素 ， 而 hb2 和 m2 对 应 图 中 右边 的 结构 元 素 ，hl 和 h2 


之 后 一 共 得 到 8 个 结构 元 素 。 
四 依次 使 用 这 些 结构 元 素 进 行 Hit 和 Miss 运算 ,@ 并 从 图 像 中 删除 运算 所 得 到 的 白色 像素 ， 
其 效果 就 是 依次 从 8 个 方向 删除 图 像 的 边缘 上 的 像素 。@ 重 复 运算 直到 没有 像素 可 删除 为 止 。 


白色 结构 元 素 白色 结构 元 素 
01010 | of0olo 
[oflifo 由 黑 | 黑 | 黑 黑 | 黑 fio 
TI | 0|1|10 
白 白 | 白 | 黑 
1|1|1 | | | | Nolili 
01010 01011 
01010 白 | 和 白 | 白 白 0|10|10 
黑色 结构 元 素 黑色 结构 元 素 


图 3-55 细 线 化 算法 的 4 个 结构 元 素 
3.9.2 图像 分 割 


下 面 以 矩形 区 域 识 别 为 例 ， 介 绍 如何 使 用 measurements 和 morphology 进行 图 像 区 域 分 割 。 
我 们 要 抽取 矩形 信息 的 图 像 如 图 3-56 所 示 。 这 个 图 像 是 二 值 图 像 ， 其 中 矩形 区 域 为 白色 ,背景 
为 黑色 。 但 是 由 于 它 采 用 JPEG 格式 储存 ， 因 此 用 pyplotimread0 读 取 的 是 一 个 形状 为 (高 , 宽 , 3) 
的 三 通道 图 像 。 下 面 的 程序 使 用 其 中 的 第 0 通道 将 其 转换 成 二 值 数 组 squares， 将 矩形 区 域 设置 
为 1， 将 背景 设置 为 0。 结 果 如 图 3-56( 左 上 ) 所 示 。 
squares = pl.imread("suqares.jpg") 
squares = (squares[:,:,8] < 266).astype(np.uint8) 


由 于 许多 矩形 都 有 一 些小 凸 起 与 邻近 的 矩形 连 在 一 起 , 我 们 需要 先 将 每 块 矩 形 与 其 周围 的 
矩形 分 离 出 来 。 可 以 使 用 上 节 介 绍 的 二 值 腐蚀 函数 morphology.binary_erosion0 实 现 这 一 功能 。 
不 过 这 里 我 们 采用 另外 的 方法 。 

morphology.distance_transform_cdt(image) 计 算 二 值 图 像 中 每 个 像素 到 最 近 的 黑色 像素 的 距离 ， 
返回 一 个 保存 所 有 距离 的 数组 。 图 像 上 两 点 之 间 的 距离 有 很 多 定义 方式 ， 此 函数 默认 采用 切 比 


雪夫 距离 。 两 点 之 间 的 切 比 雪夫 距离 定义 为 其 各 坐标 数值 差 的 最 大 值 ， 即 Depess = 


max(|xz — x1l, |yz — y1|)。 


下 面 调用 distance_transform_cdt(squares) 得 到 距离 数组 squares_dt， 并 绘制 成 图 。 图 中 颜色 越 
红 的 像素 表示 该 点 距离 黑色 背景 越 远 ， 而 原 图 中 值 为 0 的 像素 对 应 的 距离 为 0， 离 黑色 背景 最 


远 的 距离 为 27 个 像素 。 如 果 将 距离 数组 当 作 图 像 输 出 ， 显 示 效 果 如 图 3-56( 中 上 ) 所 示 。 


from scipy.ndimage import morphology 

squares_dt = morphology.distance transform cdt(squares) 

print "各 种 距离 值 "，np.unique(squares_dt) 

各 种 距离 值 [6 1 2 3 4 5 6 7 8 9101112 131415 16 17 18 19 20 21 22 2324 
25 26 27] 


只 需要 选择 合适 的 阔 值 将 距离 数组 squares_dt 转换 成 二 值 数 组 ， 就 可 以 实现 矩形 区 域 的 分 
离 ， 其 效果 和 腐蚀 算法 类 似 。squares_core 中 每 个 窍 形 区 域 都 缩 得 足够 小 ， 以 至 于 没有 任何 两 块 
区 域 之 间 有 连通 的 路 径 。 其 效果 如 图 3-56( 右 上 ) 所 示 ， 可 以 看 到 所 有 的 区 域 都 和 其 相 邻 的 区 域 
分 割 开 了 。 


squares_core = (squares dt > 8).astype(np.uint8) 


下 面 调用 measurements 中 的 label0 和 center_of_mess0 对 各 个 独立 的 白色 区 域 进行 染色 ， 并 
计算 各 个 区 域 的 重心 坐标 。 

labels0 对 二 值 图 像 中 每 个 独立 的 白色 区 域 使 用 唯一 的 整数 进行 填充 ， 这 相当 于 将 每 块 区 域 
染 上 不 同 的 “颜色 ”。 这 里 所 谓 的 “颜色 ”是 指 为 每 个 区 域 指定 的 一 个 整数 ， 而 不 是 指 图 像 中 
像素 的 真正 颜色 。 

labels0 返 回 的 结果 数组 可 以 用 于 计算 各 个 区 域 的 一 些 统计 信息 。 例 如 可 以 调用 
center_of_mass0 计 算 每 个 区 域 的 重心 。 其 第 一 个 参数 为 各 个 像素 的 权 值 (可 以 认为 是 每 个 像素 的 
质量 密度 ), 第 二 个 参数 为 labels0 输 出 的 染色 数组 , 第 三 个 参数 为 需要 计算 重心 的 区 域 的 标签 允 
表 。 在 下 面 的 程序 中 ， 权 值 数组 和 染色 数组 相同 ， 因 此 可 以 计算 区 域 中 所 有 白色 像素 的 重心 。 

如 果 直 接 使 用 imshow0 显 示 labels0 输 出 的 染色 数组 ,将 会 得 到 一 个 区 域 颜 色 逐 渐变 化 的 图 
像 ， 这 样 的 图 像 不 利于 肉眼 识别 各 个 区 域 。 因 此 下 面 的 程序 用 random_palette0 为 每 个 整数 分 本 
一 个 随机 颜色 。 其 结果 如 图 3-56( 左 下 ) 所 示 ， 每 个 区 域 的 重心 使 用 白色 小 圆 点 表示 。 


[| 


from scipy.ndimage.measurements import label，center_of_mass 


def random palette(labels, count, seed=1): 
np.random. seed(seed) 
palette = np.random.rand(count+1, 3) 
palette[6,:] = 6 
return palette[labels] 


labels, count = label(squares_core) 
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h, w = labels.shape 


centers = np.array(center_of mass(labels, labels, index=range(1, count+1)), np.int) 
cores = random palette(labels, count) 


我 们 几乎 完成 了 


square_core 中 距离 每 个 黑 


数 retum_indices 为 True。 由 于 这 里 不 需要 距离 


其 返回 值 index 是 

index[]] 为 最 近 像素 上 
@ 使 用 index[0] 
目 创 建 一 个 布 》 


x 域 
染色 之 后 的 矩形 区 域 | 
为 黑色 的 每 个 像素 ， 

@ 将 腐蚀 之 后 


的 第 1 
和 和 
数组 


次 复 到 原 
将 其 颜色 设 1 
的 图 像 square_core 反 转 ， 并 调用 distance_transform_cdt0。 这 样 可 以 找到 
色 像 素 最 近 的 白色 像素 和 


-个 形状 为 (2, 高 , 宽 ) 的 三 维 数 


识别 的 任务 , 但 是 每 个 矩形 区 域 都 比 原始 图 像 中 的 要 小 一 圈 。 下 面 将 
图 像 中 的 大 小 。 即 对 于 原始 图 像 中 为 白色 、 腐 蚀 之 后 的 图 像 中 
染色 数组 中 与 之 最 近 的 区 域 的 颜色 。 具体 的 计算 步 又 如 下 : 


讶 


的 坐标 。 为 了 让 其 返回 坐标 信息 ， 需 要 设置 参 
息 , 因此 可 以 设置 参数 retum_distances 为 False。 
组 。index[0] 为 最 近 像素 的 第 0 轴 ( 纵 轴 ) 坐 标 ， 


轴 ( 横 轴 ) 坐 标 。 


index[1] 获 取 labels 中 对 应 坐标 的 颜色 ， 得 到 near_ labels。 


mask， 其 中 的 每 个 True 值 对 应 squares 中 为 白色 、squares_core 中 为 黑 


色 的 像素 。 将 labels 复制 一 份 到 labels2， 最 后 将 mask 中 True 对 应 的 near_ labels 中 的 颜色 值 复制 


到 labels2 中 。 


图 3-56( 中 下 ) 是 使 用 random_palette0 随 机 着 色 之 后 的 结果 。 


index = morphology.distance_ transform cdt(1-squares_core, 


return_distances=False, 
return_indices=True) © 


near_labels = labels[index[8], index[1]] @ 


mask = (squares - squares_core) .astype(bool) 
labels2 = labels.copy() 

labels2[mask] = near_labels[mask] © 
separated = random palette(labels2, count) 


图 3-56 甜 形 区 域 分 割 算法 各 个 步 又 的 输出 图 像 


3.10 ”空间 算法 库 -spatial 
会 与 本 节 内 容 对 应 的 Notebook 为 : 03-scipy/scipy-A00-spatial.ipynb。 


本 节 介 绍 scipy.spatial 模块 中 提供 的 K-d 树 、 凸 包 、 沃 罗 诺 伊 图 、 德 劳 内 三 角 化 等 空间 算法 
类 的 使 用 方法 。 


3.10.1 计算 最 近 旁 点 


众所周知 ， 对 于 一 维 的 已 排序 的 数值 ， 可 以 使 用 二 分 法 快速 找到 与 指定 数值 最 近 的 数值 。 
在 下 面 的 例子 中 ， 在 一 个 升序 排序 的 随机 数 数组 x 中 ， 使 用 numpy.searchsorted0 搜 索 离 0.5 最 近 
的 数 。 排 序 算 法 的 时 间 复 杂 度 为 ONlogN)， 而 每 次 二 分 搜索 的 时 间 复 杂 度 为 OdogN)。 


x = np.sort(np.random.rand(166)) 

idx = np.searchsorted(x，68.5) 

print x[idx]，x[idx - 1] # 距 离 6.5 最 近 的 数 是 这 两 个 数 中 的 一 个 
0.542258714465 8.492285345391 


类 似 的 算法 可 以 推广 到 N 维 空间 ，spatial 模块 提供 的 cKDTree 类 使 用 K-d 树 快速 搜索 N 维 
空间 中 的 最 近 点 。 在 下 面 的 例子 中 ， 用 平面 上 随机 的 100 个 点 创建 cKDTree 对 象 ， 并 对 其 搜索 
与 targets 中 每 个 点 距离 最 近 的 3 个 点 。cKDTree.query0 返 回 两 个 数组 dist 和 idx，distli, :] 是 距离 
targets 趾 最近 的 3 个 点 的 距离 ， 而 idxfi, :] 是 这 些 最 近 点 的 下 标 : 


from scipy import spatial 
np.random.seed(42) 

N = 166 

points = np.random.uniform(-1, 1, (N, 2)) 
kd = spatial.ckDTree(points) 


targets = np.array([(6，8)，(8.5，6.5)，(-6.5，6.5)，(8.5，-6.5)，(-6.5，-6.5)]) 
dist, idx = kd.query(targets，3) 
dist idx 

[[ 8.15188266， 98.21919416, 86.27647793]， [[48, 73, 81], 

[ 8.69595867， 86.15745334， 6.22855398]， [37，78，43]， 

[ 8.65669422， 86.17583445， 6.1867312 ]， [79，22，92]， 

[ 8.11186181， 6.16618122， 6.18127473]， [35，58， 6]， 

[ 8.198615485， 6.19666739， 6.19361173]] [83，7, 42]] 


cKDTree.query_ball_point0 搜 索 与 指定 点 在 一 定 距 离 之 内 的 所 有 点 ， 它 只 返回 最 近 点 的 下 标 ， 
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于 每 个 目标 点 的 近 旁 点 数 不 一 定 相同 ， 因 此 idx2 数组 中 的 每 个 元 素 都 是 一 个 列表 : 


r=0.2 

idx2 = kd.query_ ball point(targets, r) 

idx2 

array([[48], [37, 78], [79, 92, 22], [58, 35, 6], [7, 55, 83, 42]], dtype=object) 


cKDTree.query_pairs0 找 到 points 中 距离 小 于 指定 值 的 每 一 对 点 ， 它 返回 的 是 一 个 下 标 对 的 
集合 对 象 。 下 面 的 程序 使 用 集合 差 集运 算 找 出 所 有 距离 在 0.08 到 0.1 之 间 的 点 对 : 


idx3 = kd.query pairs(8.1) - kd.query pairs(8.68) 

idx3 

{(1, 46)， (3, 21), (3，82)， (3，95)， (5，16)， (9, 30), 
(106, 87), (11; 42)3 (11, 97), (18, 41), (29, 74), (27 5S1)s 
(37, 78), (39, 61), (41, 61), (58, 84), (55, 83), (73, 81)} 


on | 在 图 3-57 中 ， 与 target 中 的 每 个 点 (用 五 角 星 表示 ) 最 近 的 点 用 与 其 相同 的 颜色 标识 : 
生 |! 10 10 
by -| 网 % ~ % 
数 | 全 2 x - 
值 | Ea 2 | 人 0 
计 | Si .S$ 。。 Qi 3 总 
算 | 二 . i 4 . Co 
库 | oa we 。，] ooh ses pe 
| 。 @ ， 
。。 。。 2 1° pe Hi 
0.5|。 太 。 0.5 
oo] | 
oo : 2 人 。 
-1.0 A -14 2 . -10 9。 。 
-10 -05 0.0 05 10 -10 -05 00 05 10 -10 -05 0.0 05 1.0 
搜索 最 近 的 3 个 近 谊 点 搜索 距离 在 02 之 内 的 所 有 近 谊 点 搜索 所 有 距离 在 0.08 到 0.1 之 间 的 点 对 


图 3-57 用 cKDTree 寻找 近 旁 点 


cKDTree 的 所 有 搜索 方法 都 有 一 个 参数 p， 用 于 定义 计算 两 点 之 间距 离 的 函数 。 读 者 可 以 
尝试 使 用 不 同 的 p 参数， 观察 图 3-57 的 变化 : 

e p=1: 绝对 值 之 和 作为 距离 

。 p =2: 欧式 距离 

e p=np.inf; 最 大 坐标 差 值 作为 距离 
此 外 ，cKDTree.query_ballL_tree0 可 以 在 两 棵 K-d 树 之 间 搜索 距离 小 于 给 定 值 的 所 有 点 对 。 
: distance 子 模 块 中 的 pdist0 计 算 一 组 点 中 每 对 点 的 距离 ， 而 cdist0 计 算 两 组 点 中 每 对 点 的 距 
| ， 离 。 由 于 pdist0 返 回 的 是 一 个 压缩 之 后 的 一 维 数组 ， 需 要 用 squareform0 将 其 转换 成 二 维 数组 。 
distl[j 是 points 中 下 标 为 i 和 j 的 两 个 点 的 距离 ，dist2[i,j] 是 points 自 和 targets 四 之 间 的 距离 。 


from scipy.spatial import distance 
dist1 = distance.squareform(distance.pdist(points)) 
dist2 = distance.cdist(points, targets) 
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dist1.shape dist2.shape 


(100, 100) (160, 5) 


下 面 使 用 np.min0 在 dis2 中 搜索 points 中 与 targets 距离 最 近 的 点 ,其 结果 与 cKDTree.query0 
的 结果 相同 : 


print dist[:，8] # cKDTree.query() 返 回 的 与 targets 最 近 的 距离 
print np.min(dist2，axis=6) 

[ 8.15188266 ”6.69595867 6.65689422 8.11186181 98.19615485] 
[ 8.15188266 6.69595867 ”6.65689422 68.11186181 8.19615485] 


为 了 找到 points 中 最 近 的 点 对 ， 需 要 将 distl 对 角 线 上 的 元 素 填充 为 无 穷 大 : 


disti[np.diag indices(len(points))] = np.inf 

nearest_pair = np.unravel_index(np.argmin(dist1)，dist1.shape) 
print nearest_pair，dist1[nearest_pair] 

(22，92) 6.68534621624816 


用 cKDTree.query0 可 以 快速 找到 这 个 距离 最 近 的 点 对 ， 在 K-d 树 中 搜索 C 
找到 与 每 个 点 最 近 的 两 个 点 ， 其 中 距离 最 近世 
是 每 个 点 的 最 近 帝 


自己 包含 的 点 ， 
就 是 它 本 身 ， 距 离 为 0， 而 距离 第 二 近 的 点 就 
然后 只 需要 找到 这 些 距 离 中 最 小 的 那个 即 可 : 


点 


dist, idx = kd.query(points, 2) 
print idx[np.argmin(dist[:, 1])], np.min(dist[:, 1]) 
[22 92] 8.68534621624816 


让 我 们 看 一 个 使 用 K-d 树 提高 搜索 速度 的 实例 。 下 面 的 stat 和 end 数组 保存 用 户 登 录 和 离 
开 网 站 的 时 间 ， 对 于 任意 指定 的 时 刻 time， 计 算 该 时 刻 在 线 用 户 的 数量 。 


N = 1666666 

start = np.random.uniform(86，168，N) 
span = np.random.uniform(86.61，1，N) 
span = np.clip(span，2，166) 

end = start + span 


下 面 的 naive_count_at0 采 用 逐个 比较 的 方法 计算 指定 时 间 的 在 线 用 户 数量 : 


def naive_count at(start, end, time): 
mask = (start < time) & (end > time) 
return np.sum(mask) 


图 3-58 显示 了 如 何 使 用 K-d 树 实现 快速 搜索 。 图 中 每 点 的 横 坐标 为 start， 纵 坐标 为 end。 
于 end 大 于 start 因此 所 有 的 点 都 在 关 x 斜 线 的 上 方 。 图 中 阴影 部 分 表示 满足 Cstart<time) & (end 
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>time) 条 件 的 区 域 。 该 区 域 中 的 点 数 为 时 刻 tme 时 的 在 线 人 数 。 


100 120 


图 3-58 使 用 二 维 K-d 树 搜索 指定 区 间 的 在 线 用 户 


tree.count_neighbors(other, r, p=2) 可 以 统计 tree 中 到 other 的 距离 小 于 fr 的 点 数 , 其 中 p 为 计算 
距离 的 范 数 。 距 离 按照 如 下 公式 计算 : 
FE 
NpGO = x lp= (|xal + Ix2l? + + |xnl?)P 
当 p = 2 时 ， 上 面 的 公式 就 是 欧 几 里 得 空间 中 的 向 量 长 度 。 当 p = co 时 ， 该 距离 变 为 各 个 
轴 上 的 最 大 绝对 值 : 
No (x) = x lw= max(|x1l, |x2|*…, |xn|) 
当 使 用 p = co 时 可 以 计算 某 正方 形 区 域 之 内 的 点 数 。 我 们 将 该 正方 形 的 中 心 设置 为 (time - 
max_time, time + max_time), 正方 形 的 边 长 为 2*max_time, 即 r=max_time。 其 中 max_time 为 end 
中 的 最 大 值 。 下 面 的 KdSearch 类 实现 了 该 算法 : 


class KdSearch(object): 
def _ init_ (self, start, end, leafsize=10): 
self.tree = spatial.cKDTree(np.c_[start, end], leafsize=leafsize) 
self.max_time = np.max(end) 


def count at(self, time): 
max_time = self.max time 
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to_search = spatial.ckDTree([[time - max_time，time + max_time]]) 
return self.tree.count_neighbors(to_search，max_time，p=np.inf) 


naive_count_at(start，end，46) == KdSsearch(start，end) .count_at(46) 


True 


下 面 比较 运算 时 间 ， 由 结果 可 知 创建 K-d 树 需 要 约 0.5 秒 时 间 ，K-d 树 的 搜索 速度 则 为 线 
性 搜索 的 17 倍 左右 。 


如 请 读者 研究 点 数 N 和 leafsize 参数 与 创建 K-d 树 和 搜索 时 间 之 间 的 关系 。 


%time ks = KdSearch(start, end, leafsize=1686) 
%timeit naive_search(start, end, 40) 

%timeit ks.count_at(46) 

Wall time: 484 ms 

166 loops, best of 3: 3.85 ms per loop 

1666 loops, best of 3: 221 hs per loop 


3.10.2 凸 包 


所 谓 凸 包 是 指 N 维 空间 中 的 一 个 区 域 , 该 区 域 中 任意 两 点 之 间 的 线段 都 完全 被 包含 在 该 区 
域 之 中 ， 二 维 平 面 上 的 凸 多 边 形 就 是 典型 的 凸 包 。ConvexHull 可 以 快速 计算 包含 N 维 空间 中 点 
的 集合 的 最 小 凸 包 。 下 面 先 看 一 个 二 维 的 例子 ，points2d 是 一 组 二 维 平 面 上 的 随机 点 ，ch2d 是 
的 凸 包 对 象 。ConvexHull.simplices 是 凸 包 的 每 条 边线 的 两 个 顶点 在 points2d 中 的 下 标 , 由 
于 它 的 形状 为 (5, 2)， 因 此 凸 包 由 5 条 线段 构成 。 对 于 情况 ，ConvexHull.vertices 是 凸 多 边 
形 的 每 个 顶点 在 points2d 中 的 下 标 ， 按 逆 时 针 方 向 的 顺序 排列 。 


np.random. seed(42) 

points2d = np.random.rand(106, 2) 
ch2d = spatial.ConvexHull(points2d) 
ch2d.simplices ch2d.vertices 


[[2, 5], [5, 2, 6, 1, 8] 


使 用 matplotlib 中 的 Polygon 对 象 可 以 绘制 如 图 3-59 所 示 的 多 边 形 。 
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poly = p1.Polygon(points2d[ch2d.vertices]，fill=None，lw=2，color="r"，alpha=6.5) 
ax = pl.subplot(aspect="equal") 
pl.plot(points2d[:, 8], points2d[:, 1], "go") 
for i, pos in enumerate(points2d): 
pl.text(pos[8], pos[1], str(i), color="blue") 
ax.add_artist(poly) 


0.1 1 PE 
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 


图 3-59 二 维 平面 上 的 凸 包 


三 维 空间 中 的 凸 包 是 一 个 凸 多 面体 , 每 个 面 都 是 一 个 三 角形 。 在 下 面 的 例子 中 , 由 simplices 
的 形状 可 知 ， 所 得 到 的 凸 包 由 38 个 三 角形 面 构成 ; 


np.random.seed(42) 

points3d = np.random.rand(46，3) 
ch3d = spatial.ConvexHull(points3d) 
ch3d.simplices. shape 

(38, 3) 


下 面 的 程序 用 TVTK 直观 地 显示 凸 包 ， 图 3-60 中 所 有 的 绿色 圆 球 表示 points3d 中 的 点 ， 
由 红色 线段 构成 的 三 角形 面 表示 凸 多 面体 上 的 面 。 没 有 和 红色 线段 相连 的 点 就 是 目 包 之 内 


的 点 : 


from scpy2 import vtk_convexhull, vtk_scene, vtk_scene to array 
actors = vtk_convexhull(ch3d) 

scene = vtk_scene(actors, viewangle=22) 

%array_image vtk_scene to _array(scene) 

scene.close() 


图 3-60 三 维 空间 中 的 凸 包 


如 果 读 者 希望 采用 三 维 交互 界面 ， 可 以 在 Notebook 中 执行 如 下 代码 : 


%BEui qt 
from scpy2 import ivtk_scene 
vs cene(actons). 


3.10.3” 沃 罗 诺 伊 图 
沃 罗 诺 伊 图 (Voronoi Diagram) 是 一 种 空间 分 割 算法 ， 它 根据 指定 的 N 个 胞 点 将 空间 分 割 为 
N 个 区 域 ， 每 个 区 域 中 的 所 有 坐标 点 都 与 该 区 域 对 应 的 胞 点 最 近 。 


points2d = np.array([[6.2，6.1]，[8.5，6.5]，[86.8，6.1]， 
[8.5, 8.8], [8.3, 8.6], [8.7, 8.6], [8.5, 8.35]]) 
vo = spatial.Voronoi(points2d) 


vo.vertices vo.regions Vvo.ridge_vertices 
[[ .5 ，8.645 ]，[[-1 8, 1], [[-1, 96]， 
[L032450 6.3513] [ET 二 2] I ls 
L07552. ox35101 nl [-1, 1], 
[ 8.3375, 6.425 ]， [6, 4, 3, 5], [e321 


加 036625;0034253]5l5 3] [rs A 

6745065 |S 2. 0 | 

0:550 3 065 e102 4 [3 过 4 
[6, -1, 5]] [4, 6], 

[5，6]， 

[1, 3], 
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[-1，5]， 
[2，4]， 
[-1, 6]] 


使 用 voronoi_plot_2d0 可 以 将 沃 罗 诺 伊 图 显示 为 图 表 , 效果 如 图 3-61( 左 ) 所 示 。 图 中 蓝 色 小 


圆 点 为 points2d 指定 的 胞 点 ， 红 色 大 圆 点 表示 Voronoi.vertices 中 的 点 ， 图 中 为 每 个 vertices 点 标 
注 了 下 标 。 由 虚线 和 实 线 将 空间 分 为 7 个 区 域 ， 以 虚线 为 边 的 区 域 为 无 限 大 的 区 域 ， 一 直 向 外 


延伸 ， 全 部 由 实 线 构成 的 区 域 为 有 限 区 域 。 每 个 区 域 都 以 vertices 中 的 点 为 顶点 。 


Voronoiregions 是 区 域 列表 ， 其 中 每 个 区 域 由 一 个 列表 (忽略 空 列表 ) 表 示 ， 列表 中 的 整数 为 


vertices 中 的 序号 ， 包 含 -1 的 区 域 为 无 限 区 域 。 例 如 [6, 4, 3, 5] 为 图 中 正中 心 的 那 块 区 域 。 


Voronoi.ridge_vertices 是 区 域 分 割 线 列表 , 每 条 分 割 线 由 vertices 中 的 两 个 序号 构成 , 包含 - 


的 分 割 线 为 图 中 的 虚线 ， 其 长 度 为 无 限 长 。 


1 


如 果 希 望 将 每 块 区 域 以 不 同 颜色 填充 ， 但 由 于 外 围 的 区 域 是 无 限 大 的 ， 因 此 无 法 使 用 
matplotlib 绘图 ， 可 以 在 外 面 添 加 4 个 点 将 整个 区 域 围 起 来 ， 这 样 每 个 points2d 中 的 胞 点 都 对 应 


成 胞 点 的 颜色 。 


bound = np.array([[-1606, -166], [-160, 166]， 
[ 100, 168]，[ 166，-1686]]) 
Vvo2 = spatial.Voronoi(np.vstack((points2d，bound))) 


1.0 


0.8 


0.6 


0.2 


图 3-61 沃 罗 诺 伊 图 将 空间 分 割 为 多 个 区 域 


使 用 沃 罗 诺 伊 图 可 以 解决 最 大 空 圆 问题 : 找到 一 个 半径 最 大 的 圆 ， 使 得 其 圆心 在 一 组 点 
凸 包 区 域 之 内 ， 并 且 圆 内 没有 任何 点 。 根 据 图 3-61 可 知 最 大 空 圆 必定 是 以 vertices 为 圆心 ， 


一 个 有 限 区 域 。 在 图 3-61( 右 ) 中 ， 黑 圈 点 为 points2d 指定 的 胞 点 ， 将 空间 中 与 其 最 近 的 区 域 填充 


ea 


与 最 近 胞 点 的 距离 为 半径 的 圆 中 的 某 一 个 。 为 了 找到 胞 点 与 vertices 之 间 的 联系 ， 可 以 使 
Voronoi.point_region 属性 。point_region[j 是 与 第 i 个 胞 点 (points2d 和 四 最近 的 区 域 的 编号 。 例 如 


202 ; 


下 面 的 输出 可 知 ， 下 标 为 $ 的 蓝 色 点 与 下 标 为 6 的 区 域 对 应 ， 而 由 Voronoi.regions[6] 可 知 ， 该 区 


域 由 编号 为 6、2、4 的 三 个 vertices 点 (图 中 红色 的 点 ) 构 成 。 因 此 vertices 中 与 胞 点 points2d[5] 最 
近 的 点 的 序号 为 [2, 4, 6]。 


print vo.point_region 
print vo.regions[6] 
317465] 
6，-1，2，4] 


下 面 是 计算 最 大 空 圆 的 程序 , 效果 如 图 3-62 所 示 。 程序 中 : @ 使 用 pylabPolygon.contains_point0 


判断 用 ConvexHull 计算 的 凸 包 多 边 形 是 否 包含 vertices 中 的 点 ， 用 以 在 @@ 处 剔除 圆心 在 凸 包 之 外 


的 圆 。 


点 也 


@vertice_point_map 是 一 个 字典 ， 它 的 键 为 vertices 点 的 下 标 ， 值 为 与 其 最 近 的 几 个 points2d 
序号 。 整 个 字典 使 用 point region 和 regions 构建 ， 里 剔除 了 所 有 在 凸 包 之 外 的 vertices 点 。 
@ 对 于 vertice_point_map 中 的 每 一 对 点 ， 找 到 距离 最 大 的 那 对 点 ， 即 可 得 出 圆心 坐标 和 圆 


的 半径 。 


from collections import defaultdict 


n = 56 

np.random.seed(42) 

points2d = np.random.rand(n，2) 

vo = spatial.Voronoi(points2d) 

ch = spatial.ConvexHull(points2d) 

poly = pl.Polygon(points2d[ch.vertices]) © 

VS = vo.vertices 

convexhull_mask = [poly.contains point(p, radius=8) for p in vs] @ 


vertice point map = defaultdict(list) © 
for index_point, index_region in enumerate(vo.point_region): 
region = vo.regions[index_region] 
if -1 in region: continue 
for index_vertice in region: 
if convexhull mask[index_vertice]: 


vertice point_map[index_vertice].append(index_point) 


def dist(p1, p2): 
return ((p1l-p2)**2).sum()**0.5 


max_cicle = max((dist(points2d[pidxs[8]], vs[vidx]), vs[vidx]) © 


for vidx, pidxs in vertice point map.iteritems()) 
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r, center = max_cicle 
print "Fr = ", r, ", center = ", center 
r= 0.174278456762 ,center = [ 8.46973363 8.59356531] 
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图 3-62 使 用 沃 罗 诺 伊 图 计算 最 大 空 圆 
3.10.4 德 劳 内 三 角 化 


德 劳 内 三 角 化 算法 对 给 定 的 
含 任何 点 。 下 面 的 程序 演示 了 德 劳 内 三 角 化 的 效果 : 


Delaunay 对 象 dy 的 simplices 属性 是 每 个 三 角形 的 项 点 在 points2d 中 的 下 标 。 可 以 通过 三 角 
形 的 项 点 坐标 计算 其 外 接 圆 的 圆心 ， 不 过 这 里 使 用 同一 点 集合 的 沃 罗 诺 伊 图 的 vertices 属性 ， 


vertices 就 是 每 个 三 角形 的 外 接 圆 的 圆心 。 


x = np.array([46.445，263.251，174.176，286.899，286.899， 
189.358，135.521，29.638，161.997，226.665]) 

y = np.array([287.865，256.891，287.865，166.975，54.252， 
166.975，232.464，179.187，35.765，71.361]) 

points2d = np.c_[x, y] 

dy = spatial.Delaunay(points2d) 

vo = spatial.Voronoi(points2d) 


dy.simplices vo.vertices 

[[8, 5, 7], [[ 164.58977484， 127.063566655], 
L153 [ 235.1285  ，, 198.68143374], 
ee [ 167.83966767， 155.53682482] ， 
Le; 0, 7]; [ 71.22164881， 228.39479887]， 
[e, 6, 2], [ 116.3165  ，, 291.17642838]， 
【52 [ 261.49695449， 227.68436282] ， 

6 


，5]， [ 281.61895891, 226.21958623] ， 


合 的 凸 包 进 行 三 角形 分 割 ,使 得 每 个 三 角形 的 外 接 圆 都 不 


[9, 5, 8],  [ 152.96231864, ”93.25666683] ， 
[4, 9, 8],  [ 265.46381294， -96.5486267 ] ， 
[5, 9, 3], [235.1285  ，, 127.45761644] ， 
[9, 4, 3]] [267.91769967,，167.6135  ]] 


及 其 圆心 。 


下 面 是 用 delaunay_plot_2d0 绘 制 德 劳 内 三 角 化 的 结果 ， 此 外 还 绘制 每 个 外 接 加 
可 以 看 到 三 角形 的 所 有 项 点 都 不 在 任何 外 接 圆 之 内 ， 效 果 如 图 3-63 所 示 : 


EE 


Cx, Cy = vo.vertices.T 


ax = pl.subplot(aspect="equal") 
spatial.delaunay_plot 2d(dy, ax=ax) 
axplot(cxy cy> "re") 
for i, (cx, cy) in enumerate(vo.vertices): 
px, py = points2d[dy.simplices[i, 8]] 
radius = np.hypot(cx - px, cy - py) 
circle = pl.Circle((cx, cy), radius, fill=False, ls="dotted") ! 
ax.add_artist(circle) | 
ax.Sset_xlim(8，366) | 
ax.Sset_ylim(8，366) 
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图 3-63 德 劳 内 三 角形 的 外 接 圆 与 圆心 
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matplotlib- 绘 制 精美 的 图 表 


matplotlib 是 Python 最 著名 的 绘图 库 ， 它 提供 了 一 整套 和 MATLAB 类 似 的 绘图 函数 集 ， 十 
分 适合 编写 短小 的 脚本 程序 以 进行 快速 绘图 。matplotlib 的 文档 十 分 完备 ， 并 且 其 展示 页 面 中 有 
上 百 幅 图 表 的 缩 略 图 及 其 源 程序 。 因 此 如 果 读 者 需要 绘制 某 种 类 型 的 图 表 ， 只 需要 在 
http://matplotlib.sourceforge.net/gallery.html 上 “浏览 复制 粘贴 ” 一下， 基本 上 都 能 快速 解决 。 

本 章 在 简单 介绍 matplotlib 的 快速 绘图 功能 之 后 ， 将 较 深 入 地 挖掘 几 个 实例 ， 让 读者 从 中 
学 习 和 理解 matplotlib 绘图 的 一 些 基 本 概念 。 相 信 读 者 在 了 解 本 章 的 内 容 之 后 , 应 该 能 够 根据 官 
方 的 文档 和 演示 程序 使 用 matplotlib 完美 地 展示 数据 。 


4.1 快速 绘图 


A 与 本 节 内 容 对 应 的 Notebook 为 : 04-matplotlib/matplotlib-100-fastdrawiipynb。 


matplotlib 采用 面向 对 象 的 技术 来 实现 ， 因 此 组 成 图 表 的 各 个 元 素 都 是 对 象 , 在 编写 较 大 的 
应 用 程序 时 通过 面向 对 象 的 方式 使 用 matplotlib 将 更 加 有 效 。 但 是 使 用 这 种 面向 对 象 的 调用 接口 
进行 绘图 比较 烦琐 ， 因 此 matplotlib 还 提供 了 快速 绘图 的 pyplot 模块 。 本 节 首 先 介绍 该 模块 的 使 
用 方法 。 

为 了 将 matplotlib 绘制 的 图 表 柑 入 Notebook 中 ， 需 要 执行 下 面 的 命令 : 


%matplotlib inline 


使 用 inline 模式 在 Notebook 中 绘制 的 图 表 会 自动 关闭 , 为 了 在 Notebook 的 多 个 单元 格 内 操 
作 同 一 幅 图 表 ， 需 要 运行 下 面 的 魔法 命令 : 


%config InlineBackend.close figures = False 
4.1.1 使 用 pyplot 模块 绘图 


matplotlib 的 pyplot 模块 提供 了 与 MATLAB 类 似 的 绘图 函数 调用 接口 ， 方 便 用 户 快速 绘制 
二 维 图 表 。 我 们 先 看 一 个 简单 的 例子 : 


谢 加 全 亲善 得 六 -qholdeuw 
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pylab 模块 
matplotlib 还 提供 了 一 个 名 为 pylab 的 模块 ， 其 中 包括 了 许多 NumPy 和 pyplot 模块 中 常用 的 


函数 ， 方 便 用 户 快速 进行 计算 和 绘图 ， 十 分 适合 在 IPython 交互 式 环境 中 使 用 。 本 书 使 用 import 
pylab as pl 载 入 pylab 模块 。 


import matplotlib.pyplot as plt © 


x = np.linspace(0, 106, 1660) 
y = np.sin(x) 
z = np.cos(x**2) 


plt.figure(figsize=(8,4)) © 


plt.plot(x,y,1abel="$sin(x)$",color="red", linewidth=2) © 
plt.plot(x,z,"b--",1label="$cos(x^2)$") © 


plt.xlabel("Time(s)") © 
plt.ylabel("Volt") 
plt.title("PyPlot First Example") 
plt.ylim(-1.2,1.2) 

plt.legend() 


plt.show() © 


程序 的 输出 如 图 4-1 所 示 。 


PyPlot First Example 


Volt 
o 
己 


a 
Nb 
本 


六 


Timets) 


图 4-1 使 用 pyplot 模 块 快速 将 数据 绘制 成 曲线 


@ 首 先 载 入 matplotlib 的 绘图 模块 pyplot, 并 且 重 命名 为 plt。@ 调 用 figure0 创 建 一 个 Figure( 图 


表 ) 对 象 ， 并 且 它 将 成 为 当前 Figure 对 象 。 也 可 以 不 创建 Figure 对 象 而 直接 调用 接 下 来 的 plot0 


Axes( 了 了 


> 
页 


， 这 时 matplotlib 会 自动 创建 一 个 Figure 对 象 。figsize 参数 指定 Figure 对 象 的 宽度 和 高 


单位 为 英寸 。 此 外 还 可 以 用 dpi 参数 指定 Figure 对 象 的 分 辩 率 , 即 每 英寸 所 表示 的 像素 数 ， 
里 使 用 默认 值 80。 因 此 本 例 中 所 创 


建 的 Figure 对 象 的 宽度 为 8*80 = 640 个 像素 。 


目 创 建 Figure 对 象 之 后 ， 接 下 来 
图 ) 对 象 上 绘图 ， 如 果 当 前 的 Figure 对 象 中 没有 Axes 对 象 ， 将 会 为 之 创建 一 个 几乎 充满 


调用 plot0 在 当前 的 Figure 对 象 中 绘图 。 实 际 上 plot0 是 在 


豆 


整个 图 表 的 Axes 对象, 并 且 使 此 Axes 对 象 成 为 当前 的 Axes 对 象 。 plot0 的 前 两 个 参数 是 分 别 表 


示 X、Y 轴 数据 的 对 象 ， 这 里 使 


种 


属性 : 


的 是 NumPy 数组 。 使 用 关键 字 参 数 可 以 指定 所 绘制 曲线 的 各 


e label: 给 曲线 指定 一 个 标签 , 此 标签 将 在 图 示 中 显示 。 如 果 标 签字 符 串 的 前 后 有 字符 $， 
ib 会 使 用 内 顽 的 LaTeX 引擎 将 其 显示 为 数学 公式 。 
e color: 指定 曲线 的 颜色 ， 颜 色 可 以 用 英文 单词 或 以 半 字 符 开头 的 6 位 十 六 进 制 数 表示 ， 


matplotl 


例如 F0000' 表 示 红 
, 0.0) 也 表示 红色 。 


(1.0, 0.0, 


色 。 或 者 使 用 值 在 0 到 1 范围 之 内 的 三 个 元 素 的 元 组 来 表示 ， 例 如 


e linewidth: 指定 曲线 的 宽度 ， 可 以 不 是 整数 ， 也 可 以 使 用 缩写 形式 的 参数 名 lw。 


人 使 用 LaTeX 语法 绘制 数学 公式 会 极 大 地 降低 图 表 的 描绘 速度 . 


名 
因 


@ 直 接 通 过 第 三 个 参数 b-- 指 定 曲线 的 颜色 和 线 型 ， 它 通过 一 些 易 记 的 符号 指定 曲线 的 样 
式 。 其 中 表示 蓝 色 ，'-- 表 示 线 型 为 虚线 。 在 IPython 中 输入 pltplot? 可 以 查看 格式 化 字符 串 以 
及 各 个 参数 的 详细 说 明 。 

@ 接 下 来 通过 一 系列 函数 设置 当 


® xlabel、 


ylabel: 分 别 设置 X、 


e title: 设置 子 图 的 标题 。 


® legend: 


@ 最 后 调用 
show0 将 会 阻塞 


显示 图 示 ， 即 图 中 表 
pltshow0 显 示 绘 图 窗 


前 Axes 对 象 的 各 个 属性 : 
立轴 的 标题 文字 。 


e xlim、ylim: 分 别 设置 X、Y 轴 的 显示 范围 。 


示 每 条 曲线 的 标签 (labeD 和 样式 的 矩形 区 域 。 
口 ,在 Notebook 中 可 以 省 略 此 步骤 。 在 通常 的 运行 情况 下 ， 


程序 的 运行 ， 直 到 用 户 关 闭 绘图 窗口 。 


还 可 以 调用 


pltsavefig0 将 当前 的 


决定 。 下 面 的 


plt.savefig 


Figure 对 象 保存 成 图 像 文 件 ， 图 像 格 式 由 图 像 文件 的 扩展 


程序 将 当前 的 图 表 保存 为 testpng, 并 且 通 过 dpi 参 数 指定 图 像 的 分 辩 率 为 120， 
此 输出 图 像 的 宽度 为 8*120 = 960 个 像素 。 


("test.png"，dpi=126) 


如 果 关 闭 了 图 表 窗 口 ， 则 无 法 使 用 savefig0 保 存 图 像 。 实 际 上 不 需要 调用 show0 显 示 


LE 
量 输 出 


图 表 的 程序 。 


图 表 ， 可 以 直接 用 savefig0 将 图 表 保存 成 图 像 文 件 。 使 用 这 种 方法 可 以 很 容易 编写 批 


间 闫 址 六 -qholdeu 
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象 


savefig0 的 第 一 个 参数 可 以 是 文件 名 ， 也 可 以 是 和 Python 的 文件 对 象 有 相同 调用 接口 的 对 
例如 可 以 将 图 像 保存 到 io.BytesIO 对 象 中 ， 这 样 就 得 到 了 一 个 表示 图 像 内 容 的 字符 串 。 这 


里 


import io 
buf = io. 
plt. savef: 
buf .getva 
" \x89PNG\ 


4.1.2 面向 


需要 使 用 fmt 参 数 指定 保存 的 图 像 格式 。 


BytesIO() # 创建 一 个 用 来 保存 图 像 内 容 的 BytesIO 对 象 
ig(buf，fmt="png") # 将 图 像 以 png 格式 保存 到 buf 中 
lue()[:28] # 显示 图 像 内 容 的 前 29 个 字 节 
PNnN\xlaNnN\x66\x66\x66N\rIHDRN\Xx66\x66\x63 ' 


对 象 方式 绘图 


matplotlib 实际 上 是 一 套 面向 对 象 的 绘图 库 , 它 所 绘制 的 图 表 中 的 每 个 绘图 元 素 , 例如 线条 、 
文字 、 刻 度 等 在 内 存 中 都 有 一 个 对 象 与 之 对 应 。 为 了 方便 快速 绘图 ，matplotlib 通过 pyplot 模块 


提供 了 一 套 和 


MATLAB 类 似 的 绘图 API， 将 众多 绘图 对 象 所 构成 的 复杂 结构 隐藏 在 这 套 API 


内 部 ,我 们 只 需要 调用 pyplot 模块 所 提供 的 函数 就 可 以 实现 快速 绘图 以 及 设置 图 表 的 各 种 细节 。 


然 用 法 简单 ， 但 不 适合 在 较 大 的 应 用 程序 中 使 用 ， 因 此 本 章 将 着 重 介绍 如 何 使 用 


i 向 对 象 方式 编写 绘图 程序 。 


各 对 象 的 绘图 库 包装 成 只 使 用 函数 的 API，pyplot 模块 的 内 部 保存 了 当前 图 表 以 


及 当前 子 图 等 信息 。 可 以 使 用 gct0 和 gca0 获 得 这 两 个 对 象 ， 它 们 分 别 是 “Get Current Figure” 
和 “Get Current Axes” 开 头 字 母 的 缩写 。gcf0 获 得 的 是 表示 图 表 的 Figure 对 象 ， 而 gca0 获 得 的 


Ee 

号 ; pyplot 模块 虽 

条 ”matplotib 的 

给 | 为 了 将 面 

精 ; 

美 | 

的 | 

时 ， ” 则 是 表示 子 图 
fig = plt 


和 Axes 对 象 。 


.gcf() 


axes = plt.gca() 
print fig，axes 
Figure(646x326) Axes(8.125,9.1;69.775x8.8) 


在 pyplot 模块 中 ， 许 多 函数 都 是 对 当前 的 Figure 或 Axes 对 象 进行 处 理 ， 例 如 前 面 介绍 的 
plot0、xlabel0、savefig0 等 。 我 们 可 以 在 IPython 中 输入 函数 名 并 加 “??”， 查 看 这 些 函 数 的 源 
代码 以 了 解 它们 是 如 何 调用 各 种 对 象 的 方法 进行 绘图 处 理 的 。 例 如 下 面 的 例子 查看 plot0 函 数 的 
源 程序 , 可 以 看 到 plot0 函 数 实际 上 会 通过 gca0 获 得 当前 的 Axes 对 象 ax, 然后 再 调用 它 的 plot0 
方法 来 实现 真正 的 绘图 。 请 读者 使 用 类 似 的 方法 查看 pyplot 模 块 的 其 他 函数 是 如 何 对 各 种 绘图 
对 象 进行 包装 的 。 

def plot(*args, **kwargs): 
ax = gca() 


try: 


ret = ax.plot(*args, **kwargs) 
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finally: 
ax.hold(washold) 


4.1.3 配置 属性 
matplotlib 所 绘制 图 表 的 每 个 组 成 部 分 都 和 一 个 对 象 对 应 , 可 以 通过 调用 这 些 对 象 的 属性 设 


置 方法 set_*0 或 者 pyplot 模块 的 属性 设置 函数 setp0 来 设置 它们 的 属性 值 。 例 如 plot0 返 回 一 个 
元 素 类 型 为 Line2D 的 列表 ， 下 面 的 例子 设置 Line2D 对 象 的 属性 : 


plt.figure(figsize=(4，3)) 

x = np.arange(6，5，6.1) 

line = plt.plot(x，8.85*x*x)[8] # plot 返回 一 个 列表 
line.set_alpha(8.5) # 调用 Line2D 对 象 的 set_*() 方 法 来 设置 属性 值 


上 面 的 例子 中 ， 通 过 调用 Line2D 对 象 的 setalpha0， 修 改 它 在 图 表 中 对 应 曲线 的 透明 度 。 
下 面 的 语句 同时 绘制 正弦 和 余弦 两 条 曲线 ，lines 是 一 个 有 两 个 Line2D 对 象 的 列表 : 


lines = plt.plot(x, np.sin(x), x, np.cos(x)) 
调用 setp0 可 以 同时 配置 多 个 对 象 的 属性 ， 这 里 同时 设置 两 条 曲线 的 颜色 和 线 宽 : 


plt.setp(lines, color="r", linewidth=4.0) 
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图 4-2 配置 绘图 对 象 的 属性 


同样 ， 可 以 通过 调用 Line2D 对 象 的 get_*0 或 者 通过 plt.getp0 来 获取 对 象 的 属性 值 : 


print line.get_linewidth() 
print plt.getp(lines[6]，"color") # 返回 color 属性 
2.6 


| 


注意 getp0 和 setp0 不 同 ， 它 只 能 对 一 个 对 象 进行 操作 ， 它 有 两 种 用 法 : 
e 指定 属性 名 : 返回 对 象 的 某 个 属性 的 值 。 

e 不 指定 属性 名 : 输出 对 象 的 所 有 属性 和 值 。 

下 面 通过 getp0 查 看 Figure 对 象 的 属性 : 


州 回民 亲 问 悍 以 -qipoldlew 
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f = plt.gcf() 
plt.getp(f) 
agg_filter = None 
alpha = None 
animated = False 
axes = [<matplotlib.axes. subplots.AxesSubplot object at ... 


Figure 对 象 的 axes 属性 是 一 个 列表 ， 它 保存 图 表 中 的 所 有 子 图 对 象 。 下 面 的 程序 查看 当前 
图 表 的 axes 属性 ， 它 就 是 gca0 所 获得 的 当前 子 图 对 象 : 

print plt.getp(f，"axes")，plt.getp(f，"axes")[6] is plt.gca() 

[<matplotlib.axes._subplots.AxesSubplot object at 6x65DE5798>] True 

用 pltgetp0 可 以 继续 获取 AxesSubplot 对 象 的 属性 ， 例 如 它 的 lines 属性 为 子 图 中 的 Line2D 
对 象 列表 : 


alllines = plt.getp(plt.gca(), "lines") 
print alllines，alllines[6] is line # 其 中 的 第 一 条 曲线 就 是 最 开始 绘制 的 那 条 曲线 
<a list of 3 Line2D objects> True 


通过 这 种 方法 可 以 很 容易 查看 对 象 的 属性 值 以 及 各 个 对 象 之 间 的 关系 , 找到 需要 配置 的 属 
性 。 因 为 matplotlib 实际 上 是 一 套 面 向 对 象 的 绘图 库 ， 因 此 也 可 以 直接 获取 对 象 的 属性 ， 例 如 ， 


print f.axes，len(f.axes[6].lines) 


[<matplotlib.axes._subplots.AxesSubplot object at 6@x65DE5798>] 3 
4.1.4 绘制 多 子 图 
-个 Figure 对 象 可 以 包含 多 个 子 图 (Axes)， 在 matplotlib 中 用 Axes 对 象 表示 一 个 绘图 区 域 ， 


在 本 书 中 称 之 为 子 图 。 在 前 面 的 例子 中 ，Figure 对 象 只 包括 一 个 子 图 。 可 以 使 用 subplot0 快 速 给 
制 包含 多 个 子 图 的 图 表 ， 它 的 调用 形式 如 下 : 


subplot (numRows, numCols, plotNum) 


图 表 的 整个 绘图 区 域 被 等 分 为 numRows 行 和 numCols 列 ， 然 后 按照 从 左 到 右 、 从 上 到 下 
的 顺序 对 每 个 区 域 进行 编号 , 左上 区 域 的 编号 为 1.plotNum 参数 指定 所 创建 Axes 对 象 的 区 域 。 
如 果 numRows、numCols 和 plotNum 三 个 参数 都 小 于 10， 则 可 以 把 它们 缩写 成 一 个 整数 ， 例 如 
subplot(323) 和 subplot(3,2,3) 的 含义 相同 。 如果 新 创建 的 子 图 和 之 前 创建 的 子 图 区 域 有 重 巷 的 部 分 ， 
之 前 的 子 图 将 被 删除 。 

下 面 的 程序 创建 如 图 43( 左 ) 所 示 的 3 行 2 列 共 6 个 子 图 ， 并 通过 axisbg 参数 给 每 个 子 图 设 
置 不 同 的 背景 颜色 。 


for idx, color in enumerate("rgbyck"): 
plt.subplot(321+idx, axisbg=color) 


如 果 希 望 某 个 子 图 占据 整 行 或 整 列 , 可 以 如 下 调用 subplot0, 程序 的 输出 如 图 4-3( 右 ) 所 示 。 


plt.subplot(221) # 第 一 行 的 左 图 
plt.subplot(222) # 第 一 行 的 右 图 
plt.subplot(212) # 第 二 整 行 


cocococ-ooococo-ococoecocc~ 


0.0 , , , 
.0 02 0.4 0.6 0.8 1.0 “0.0 0.2 0.4 0.6 0.8 1.0 
图 43 在 Figure 对 象 中 创建 多 个 子 图 


在 绘图 窗口 的 工具 栏 中 ， 有 一 个 名 为 “Configure Subplots” 的 按钮 ， 单 击 它 会 弹出 调节 子 
图 间距 和 子 图 与 图 表 边 框 距离 的 对 话 框 。 也 可 以 在 程序 中 调用 subplots_adjust0 调 节 这 些 参数 ， 
它 有 left、right、bottom、top、wspace 和 hspace 共 6 个 参数 ， 这 些 参数 与 对 话 框 中 的 各 个 控件 对 
应 。 参 数 的 取 值 范围 为 0 到 1, 它们 是 以 图 表 绘图 区 域 的 宽 和 高 进行 正规 化 之 后 的 坐标 或 长 度 。 

subplot0 返 回 它 所 创建 的 Axes 对 象 ， 我 们 可 以 将 这 些 对 象 用 变量 保存 起 来 ， 然 后 用 sca0 交 
替 让 它们 成 为 当前 Axes 对 象 ， 并 调用 plot0 在 其 中 绘图 。 如 果 需 要 同时 绘制 多 幅 图 表 ， 可 以 给 
figure0 传 递 一 个 整数 参数 来 指定 Figure 对 象 的 序号 。 如 果 序 号 所 指定 的 Figure 对 象 已 经 存在 ， 
将 不 创建 新 的 对 象 ， 而 只 是 让 它 成 为 当前 的 Figure 对 象 。 下 面 的 程序 演示 了 依次 在 不 同 图 表 的 
不 同 子 图 中 绘制 曲线 : 


plt.figure(1) # 创建 图 表 1 
plt.figure(2) # 创建 图 表 2 
axl = plt.subplot(121) # 在 图 表 2 中 创建 子 图 1 
ax2 = plt.subplot(122) # 在 图 表 2 中 创建 子 图 2 


x = np.linspace(0, 3, 160) 

for i in xrange(5): 
plt.figure(1)”@ 选 择 图 表 1 
plt.plot(x, np.exp(i*x/3)) 
plt.sca(ax1) ”@ 选 择 图 表 2 的 子 图 1 
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plt.plot(x, np.sin(i*x)) 
plt.sca(ax2) # 选择 图 表 2 的 子 图 2 
plt.plot(x, np.cos(i*x)) 


外 也 可 以 不 调用 sca0 指 定 当前 子 图 ， 而 直接 调用 axl 和 ax2 的 plot0 方 法 来 绘图 。 


首先 通过 figure0 创 建 了 两 个 图 表 ， 它 们 的 序号 分 别 为 1 和 2。 然 后 在 图 表 2 中 创建 了 左右 
并 排 的 两 个 子 图 ， 并 用 变量 axl 和 ax2 保存。 

在 循环 中 ，@ 先 调用 figure(1) 让 图 表 1 成 为 当前 图 表 ， 并 在 其 中 绘图 。@ 然 后 调用 sca(ax1) 
和 sca(ax2) 分 别 让 子 图 axl 和 ax2 成 为 当前 子 图 ， 并 在 其 中 绘图 。 当 它们 成 为 当前 子 图 时 ， 包 含 
它们 的 图 表 2 也 自动 成 为 当前 图 表 , 因此 不 需要 调用 figure(2)。 这 样 依次 在 图 表 1 和 图 表 2 的 两 
个 子 图 之 间 切 换 ， 逐 步 在 其 中 添加 新 的 曲线 ， 效 果 如 图 44 所 示 。 


60 1.0 10 
50 
05 05 
40 
30 0.0| 00 
20 
0.5 0.5| 
10 
0 -1.0 -10 
0.0 0.5 1.0 1.5 20 2.5 3.0 00 05 10 15 20 25 30 00 05 10 15 20 25 30 


图 44 同时 在 多 幅 图 表 、 多 个 子 图 中 进行 绘图 


此 外 subplots0 可 以 一 次 生成 多 个 子 图 ， 并 返回 图 表 对 象 和 保存 子 图 对 象 的 数组 。 在 下 面 的 
例子 中 ，axes 是 一 个 形状 为 (2, 3) 的 数组 ， 每 个 元 素 都 是 一 个 子 图 对 象 ， 可 以 利用 Python 的 赋值 
功能 将 这 个 数组 中 的 每 个 元 素 用 一 个 变量 表示 : 


fig, axes = plt.subplots(2, 3) 

[a, b, c], [d, e, f] = axes 

print axes.shape 

print b 

(2, 3) 
Axes(0.398529,0.536364;8.227941x8.363636) 


还 可 以 调用 subplot2grid0 进 行 更 复杂 的 表格 布局 。 表格 布局 和 在 Excel 或 Word 中 绘制 表格 
十 分 类 似 ， 其 调用 参数 如 下 : 


subplot2grid(shape, loc, rowspan=1, colspan=1, **kwargs) 


中 , shape 为 表示 表格 形状 的 元 组 : ( 行 数 , 列 数 )。 loc 为 子 图 左上 角 所 在 的 坐标 : ( 行 , 列 )。 
rowspan 和 colspan 分 别 为 子 图 所 占据 的 行 数 和 列 数 。 在 下 面 的 例子 中 ， 在 3X3 的 网 格 上 创建 5 


个 子 图 ， 在 每 个 子 图 中 间 显 示 该 子 图 对 应 的 变量 名 ， 如 图 4.5 所 示 : 


fig = plt.figure(figsize=(6, 6)) 

ax1 = plt.subplot2grid((3，3)，(8，6)，colspan=2) 
ax2 = plt.subplot2grid((3，3)，(8，2)，rowspan=2) 
ax3 = plt.subplot2grid((3, 3), (1, 8), rowspan=2) 
ax4 = plt.subplot2grid((3, 3), (2, 1), colspan=2) 
ax5 = plt.subplot2grid((3, 3), (1, 1)) 
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图 4-5 使 用 subplot2grid0 创 建 表格 布局 


4.1.5 配置 文件 


绘制 一 幅 图 需要 对 许多 对 象 的 属性 进行 配置 ， 例 如 颜色 、 字 体 、 线 型 等 。 在 前 面 的 绘图 程 
序 中 ， 并 没有 逐一 对 这 些 属性 进行 配置 ， 而 是 直接 采用 matplotlib 的 默认 配置 。matplotlib 将 这 
些 默认 配置 保存 在 一 个 名 为 matplotlibre 的 配置 文件 中 ,通过 修改 配置 文件 ， 可 以 修改 图 表 的 默 
认 样 式 。 

在 matplotlib 中 可 以 使 用 多 个 matplotlibre 配置 文件 ， 它 们 的 搜索 顺序 如 下 : 顺序 靠 前 的 配 
置 文件 将 会 被 优先 采用 。 

e 当前 路 径 : 程序 的 当前 路 径 。 

e 用 户 配 置 路 径 : 通常 在 用 户 文件 夹 的 .matplotib 目录 下 ， 可 以 通过 环境 变量 

MATPLOTLIBRC 修改 它 的 位 置 。 

e 系统 配置 路 径 ; 保存 在 matplotlib 的 安装 目录 下 的 mpl-data 中 。 

通过 下 面 的 语句 可 以 获取 用 户 配 置 路 径 : 


from os import path 
path.abspath(matplotlib.get_configdir()) 
U'C:\\Users\\RY\\Dropbox\\scipybook2\\settings\\.matplotlib"’ 


通过 下 面 的 语句 可 以 获得 目前 使 用 的 配置 文件 的 路 径 : 
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path.abspath(matplotlib.matplotlib fname()) 
U'C:\\Users\\RY\\Dropbox\\scipybook2\\settings\\.matplotlib\\matplotlibrc" 


如 果 使 用 文本 编辑 器 打开 此 配置 文件 ， 就 会 发 现 它 实际 上 是 一 个 字典 。 为 了 对 众多 的 配置 
FE 行 区 分 , 字典 的 键 根据 配置 的 种 类 , 用 “.” 分 为 多 段 。 配置 文件 的 读 入 可 以 使 用 re_params0)， 


它 返 回 一 个 配置 字典 : 


print(matplotlib.rc_params()) 
agg.path.chunksize: 6 
animation.avconv_args: [] 
animation.avconv_path: avconv 
animation.bitrate: -1 


在 matplotlib 模块 载 入 时 会 调用 rc_params0， 并 把 得 到 的 配置 字典 保存 到 rcParams 变量 中 : 


print(matplotlib.rcParams) 
agg.path.chunksize: 6 
animation.avconv_args: [] 
animation.avconv_path: avconv 
animation.bitrate: -1 


matplotlib 将 使 用 rcParams 字典 中 的 配置 进行 绘图 。 用 户 可 以 直接 修改 此 字典 中 的 配置 ， 所 


做 的 改变 会 反映 到 此 后 创建 的 绘图 元 素 。 例如 下 面 的 脚本 所 绘制 的 折线 将 带 有 圆 形 的 点 标识 符 : 


matplotlib.rcPparams["lines.marker"] = "0o" 
plt.plot([1,2,3,2]) 


为 了 方便 对 配置 字典 进行 设置 , 可 以 使 用 re0。 下 面 的 例子 同时 配置 点 标识 符 、 线 宽 和 颜色 : 
matplotlib.rc("lines", marker="x", linewidth=2, color="red") 
如 果 希 望 恢复 到 matplotlib 载 入 时 从 配置 文件 读 入 的 默认 配置 ， 可 以 调用 redefaults0: 


matplotlib.rcdefaults() 


如 果 手 工 修改 了 配置 文件 ， 希 望 重 新 从 配置 文件 载 入 最 新 的 配置 ， 可 以 调 


matplotlib.rcparams.update( matplotlib.rc_params() ) 


六 通过 pyplot 模块 也 可 以 使 用 rcParams、rc 和 rcdefaults。 


matplotlib.style 模块 提供 绘图 样式 切换 功能 ， 所 有 可 选 样式 可 以 通过 available 获得 : 


from matplotlib import style 
print style.available 


[u'dark_background', u'bmh', u'grayscale', u'ggplot', u'fivethirtyeight'] 


调用 use0 函 数 即 可 切换 样式 ， 例 如 下 面 使 用 ggplot 样 式 绘图 ， 效 果 如 图 4-6 所 示 。 


style.use("ggplot") 


ggPplot 样 式 


一 sin(z) 


= coos(r) 


Volt 
5 
8 


Time(s) 


图 4.6 使 用 ggplot 样 式 绘图 
4.1.6 在 图 表 中 显示 中 文 


matplotlib 的 默认 配置 文件 中 所 使 用 的 字体 无 法 正确 显示 中 文 , 可 以 通过 下 面 儿 种 方法 设置 
中 文字 体 : 

e 在 程序 中 直接 指定 字体 。 

e 在 程序 开头 修改 配置 字典 rrParams。 

e 修改 配置 文件 。 

在 matplotlib 中 可 以 通过 字体 名 指定 字体 ， 而 每 个 字体 名 都 与 一 个 字体 文件 相对 应 。 通 过 
下 面 的 程序 可 以 获得 所 有 可 用 字体 的 列表 : 


from matplotlib.font_manager import fontManager 

fontManager .ttflist[:6] 

[<Font ‘cmss10' (cmss16.ttf) normal normal 466 normal>， 

<Font “cmb16” (cmb16.ttf) normal normal 466 normal>， 

<Font “cmex16” (cmex16.ttf) normal normal 466 normal>, 

<Font 'STIXSizeFourSym' (STIXSizFourSymBol.ttf) normal normal 766 normal>， 
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<Font “Bitstream Vera Serif' (VeraSeBd.ttf) normal normal 766 normal>， 
<Font “Bitstream Vera Sans' (VeraIt.ttf) oblique normal 466 normal>] 


ttist 是 matplotlib 的 系统 字体 列表 。 其 中 每 个 元 素 都 是 表示 字体 的 Font 对 象 ， 下 面 的 程序 


显示 了 第 一 个 字体 文件 的 全 路 径 和 字体 名 ， 由 路 径 可 知 它 是 matplotlib 自 带 的 字体 : 


print fontManager.ttflist[6] .name 

print fontManager.ttflist[6].fname 

cmss10 
C:\Winpython-32bit-2.7.9.2\python-2.7.9\1ib\site-packages\matplotlib\mpl-data\fonts\ttf 


\cmss10.ttf 


下 面 的 程序 使 用 字体 列表 中 的 字体 显示 中 文 文字 ， 效 果 图 4-7 所 示 。 


scpy2/matplotlib/chinese_fonts.py: 显示 系统 中 所 有 文件 大 于 1MB 的 TIF 字体， 请 读者 
终 。 使 用 该 程序 查询 计算 机 中 可 使 用 的 中 文字 体 名 。 


import os 
from os import path 


fig = plt.figure(figsize=(8, 7)) 
ax = fig.add_subplot(111) 
plt.subplots_adjust(8, 8, 1, 1, 8, 8) 
plt.xticks([]) 
plt.yticks([]) 
x, y = 6.65，6.65 
fonts = [font.name for font in fontManager.ttflist if 
path.exists(font.fname) and os.stat(font.fname).st_size>le6] © 
font = set(fonts) 
= (1.6 - y) / (len(fonts) // 4 + (len(fonts)%4 != 6)) 


for font in fonts: 
t = ax.text(Xx，y + dy / 2，u" 中 文字 体 "， 
{'fontname' :font, 'fontsize':14}, transform=ax.transAxes) © 
ax.text(x, y, font, {'fontsize':12}, transform=ax.transAxes) 
x += 0.25 
if x >= 1.6: 
y += dy 
= 89.65 
plt.show() 


中 文字 体 中 文字 体 中 文字 体 中 文字 体 
Lisu STXihei FzshuTi DengXian 
文字 体 中 文字 体 7323? 2939 
Yu Gothic YouYuan Linux Biolinum G Gabriola 
ee MicroH FF 全 人 Dy Libertine G 
lenQuanYi Micro Hei angSon u Gothic nux Libertine 
学生 下 和 人 中 迷 是 蛛 
STCaiyun Microsoft MHei STXingkai Arial Unicode MS 
让 文字 体 7777 ?33?? 323? 
STLiti Linux Biolinum G Linux Libertine G Linux Libertine G 
中 文字 nn 中 文字 体 bys 
WenQuanYi Micro Hei Linux Biolinum G STZhongsong STCaiyun 
中 文字 人 ?33?? ?233? 
Yu Gothic FZYaoTi Linux Libertine G Linux Libertine G 
中 文字 体 777? 中 文字 体 中 文字 体 
Microsoft MHei Linux Libertine Display G FzShuTi DengXian 
文字 体 322?? 中 文字 体 ?927 
STZhongsong Linux Biolinum G STXinwei Gabriola 
7777 文字 体 中 文字 72797 
Linux Libertine G Microsoft MHei Microsoft JhengHei Linux Biolinum G 
?2?22 327?? 33?? 39993 
Linux Libertine G Linux Biolinum G Linux Libertine G SimSun-ExtB 
中 文字 体 333? 3777 ?277 
STHupo Linux Libertine G Linux Libertine G Malgun Gothic 
中 文字 体 中 文字 体 中 文字 体 
STSong Yu Gothic Ee STHupo 
中 文学 体 文字 体 中 文字 体 
STSong, Yahei Mono Arial Unicode MS STFangsong 
中 文字 体 文字 从 中 文字 体 中 文字 体 
Microsoft JhengHei STKaiti STLiti Lisu 
中 文字 体 中 文字 体 33?? 文 
STXihei, STFangsong Linux Libertine G Microsoft YaHei 
中 文字 体 中 文字 体 文字 体 中 文字 体 
Microsoft MHei STKaiti DFKai-SB 儿 安 汪 | 
字 3279 中 文字 体 中 文 
Microsoft YaHei Linux Libertine Display G STXinwei FZYaoTi 
中 文字 体 ?2? 333?? 中 文字 体 
KaiTi Malgun Gothic Linux Libertine G STXingkai 
图 4-7 显示 系统 中 所 有 的 中 文字 体 名 
@ 利 用 os 模块 中 的 stat0 获 取 字 体 文件 的 大 小 ， 并 保留 字体 列表 中 所 有 大 于 1MB 的 字体 文 
件 。 由 于 中 文字 体 文件 通常 都 很 大 ， 因 此 使 用 这 种 方法 可 以 粗略 地 找 出 所 有 的 中 文字 体 文件 。 
@ 调 用 子 图 对 象 的 text0 在 其 中 添加 文字 ， 注 意 文字 必须 是 Unicode 字 符 串 。 通 过 一 个 描述 


字体 的 字典 指定 文字 的 字体 :fontname 键 对 应 的 值 就 是 字体 名 。 

于 matplotlib 只 搜索 TTF 字体 文件 ， 因 此 无 法 通过 上 述 方法 使 用 系统 中 安装 的 许多 复合 
TTC 字 体 文件 。 可 以 直接 创建 使 用 字体 文件 的 FontProperties 对 象 ， 并 使 用 此 对 象 指定 图 表 中 的 
各 种 文字 的 字体 。 下 面 是 一 个 例子 : 


from matplotlib.font_manager import FontProperties 

font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14) © 
t = np.linspace(0, 106, 10660) 

y = np.sin(t) 

plt.close("all") 

plt.plot(t, y) 

plt.xlabel(u" 时 间 "，fontproperties=font) @ 

plt.ylabel(u" 振 幅 "，fontproperties=font) 

plt.title(u" 正 弦 波 "，fontproperties=font) 

plt.show() 


@ 创 建 一 个 描述 字体 属性 的 FontProperties 对 象 ， 并 设置 其 fname 属性 为 字体 文件 的 绝对 路 
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径 。@ 通 过 fontproperties 参数 将 FontProperties 对 象 传递 给 显示 文字 的 函数 。 

还 可 以 通过 字体 工具 将 TTC 字体 文件 分 解 为 多 个 TTF 字体 文件 ， 并 将 其 复制 到 系统 的 字 
体 文件 夹 中 。 为 了 缩短 启动 时 间 ，matplotlib 不 会 每 次 启动 时 都 重新 扫描 所 有 的 字体 文件 并 创建 
字体 列表 ， 因 此 在 复制 完 字体 文件 之 后 ， 需 要 运行 下 面 的 语句 重新 创建 字体 列表 : 


from matplotlib. font_manager import _rebuild 
_rebuild() 


还 可 以 直接 修改 配置 字典 ， 设 置 默认 字体 ， 这 样 就 不 需要 在 每 次 绘制 文字 时 设置 字体 了 。 
例如 : 


plt.rcParams["font.family"] = "SimHei" 
plt.plot([1,2,3]) 
plt.xlabel(8.5 ,8.5，u" 中 文字 体 ") 


或 者 修改 上 节 介 绍 的 配置 文件 , 修改 其 中 的 fontfamily 配置 为 SimHei, 注意 SimHei 是 字体 
名 ， 请 读者 运行 前 面 的 代码 来 查看 系统 中 所 有 可 用 的 中 文字 体 名 。 


4.2 Artist 对 象 
(®, 与 本 节 内 容 对 应 的 Notebook 为 : 04-matplotlib/matplotlib-200-artistsipynb 


matplotlib 是 一 套 面向 对 象 的 绘图 库 ， 它 有 三 个 层次 : 

@ ”backend_bases.FigureCanvas: 绘图 用 的 画布 。 

”backend_bases.Renderer: 知道 如 何在 FigureCanvas 对 象 上 绘图 。 

eartist.Artist: 知道 如 何 使 用 Renderer 在 FigureCanvas 对 象 上 绘图 。 

FigureCanvas 和 Renderer 需要 处 理 底层 的 绘图 操作 ， 例 如 在 wxPython 界面 库 所 生成 的 界面 
上 绘图 ， 或 者 使 用 PostScript 在 PDF 文件 中 绘图 。Artist 对 象 则 处 理 所 有 的 高 层 结构 ， 例 如 处 理 
图 表 、 文 字 和 曲线 等 各 种 绘图 元 素 的 绘制 和 布局 。 通 常 我 们 只 和 Artist 对 象 打交道 ， 而 不 需要 
关心 底层 是 如 何 实现 绘图 细节 的 。 

Artist 对 象 分 为 简单 类 型 和 容器 类 型 两 种 。 简 单 类 型 的 Artist 对 象 是 标准 的 绘图 元 件 ， 例 如 
Line2D、Rectangle、Text、AxesImage 等 。 而 容器 类 型 则 可 以 包含 多 个 Artist 对 象 ， 使 它们 组 织 
成 一 个 整体 ， 例 如 Axis、Axes、Figure 等 。 

直接 创建 Artist 对 象 进行 绘图 的 流程 如 下 : 

(D 创建 Figure 对象。 

(2) 为 Figure 对 象 创建 一 个 或 多 个 Axes 对 象 。 

(3) 调用 Axes 对 象 的 方法 来 创建 各 种 简单 类 型 的 Artist 对 象 。 
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在 下 面 的 程序 中 ， 首 先 调用 figure0 创 建 Figure 对 象 ，figure0 是 一 个 辅助 函数 ， 帮 助 我 们 创 
建 Figure 对 象 ， 它 会 进行 许多 初始 化 操作 ， 因 此 不 建议 直接 使 用 Figure0 创 建 。 然 后 调用 Figure 
对 象 的 add_axes0 在 其 中 创建 一 个 Axes 对 象 ，add_axes0 的 参数 是 一 个 形 如 [left bottom, width, 
height] 的 列表 ， 这 些 数值 分 别 指定 所 创建 的 Axes 对 象 在 Figure 对 象 中 的 位 置 和 大 小 ， 各 个 值 的 
取 值 范围 都 在 0 到 1 之 间 ; 


from matplotlib import pyplot as plt 
fig = plt.figure() 
ax = fig.add_axes([6.15，6.1，6.7，6.3]) 


然后 调用 Axes 对 象 的 plot0 来 绘制 曲线 ， 并 且 返 回 表示 此 曲线 的 Line2D 对 象 。 
line = ax.plot([1，2，3]，[1，2，1])[8] # 返回 的 是 只 有 一 个 元 素 的 列表 


print line is ax.lines[6] 
True 


Axes 对 象 的 lines 属性 是 一 个 包含 所 有 曲线 的 列表 , 如 果 继 续 运 行 ax.plot0, 所 创建 的 Line2D 
对 象 都 会 添加 到 此 列表 中 。 如 果 想 删除 某 条 曲线 ， 直 接 从 此 列表 中 删除 即 可 。 
Axes 对 象 还 包括 许多 其 他 的 Artists 对 象 ， 例 如 可 以 通过 set_xlabel0 设 置 其 X 轴 上 的 标题 : 


ax.set_xlabel("time") 


如 果 查 看 set_xlabel0 的 源 代码 ， 就 会 发 现 它 是 通过 下 面 的 语句 实现 的 : 
self.xaxis.set_label_ text(xlabel) 


如 果 一 直 跟 踪 下 去 ,就 会 发 现 Axes 对 象 的 xaxis 属性 是 一 个 XAxis 对 象 , 其 label 属性 是 一 
个 Text 对 象 ， 而 Text 对 象 的 _text 属 性 为 我 们 设置 的 值 : 


print ax.xaxis 

print ax.xaxis.label 

print ax.xaxis.label. text 
XAxis(72.696669,24.666666) 
Text(8.5,2.2,U'time ') 

time 


Axes、XAxis 和 Text 类 都 从 Artist 继承 ， 也 可 以 调用 它们 的 get_*0 以 获得 相应 的 属性 值 : 


ax.get_xaxis().get_label().get_text() 


U'time 


4.2.1 Artist 的 属性 


通过 前 面 的 介绍 我 们 已 经 知道 ， 图 表 中 的 每 个 绘图 元 素 都 用 一 个 Artist 对 象 表示 ， 而 每 个 
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Artist 对 象 都 有 许多 属性 控制 其 显示 效果 。 例 如 Figure 对 象 和 Axes 对 象 都 有 patch 属性 作为 其 背 
景 , 它 是 一 个 Rectangle 对 象 。 通过 设置 它 的 属性 可 以 修改 图 表 的 背景 色 或 透明 度 ， 下 面 的 例子 


将 图 表 的 背景 色 设置 为 绿 


色 : 


fig = plt.figure() 


fig.patch.set_color("g") # 设置 背景 色 为 绿色 


注意 当代 码 作为 单独 程序 运行 时 ， 调 用 set_color0 设 置 好 背 
上 显示 出 来 ， 还 需要 调用 fig.canvas.draw0 才 能 更 新 界面 显示 。 
表 4-1 是 所 有 Artist 对 象 都 拥有 的 一 些 属性 。 


由 


色 之 后 ， 并 不 会 立即 在 界面 


池 


表 4-1 所 有 Artist 对 象 都 拥有 的 一 些 属性 


属性 说 明 

alpha 透明 度 ， 值 在 0 到 1 之 间 ，0 为 完全 透明 ，! 为 完全 不 透明 
animated 布尔 值 ， 在 绘制 动画 效果 时 使 用 
axes 拥有 此 Artist 对 象 的 Axes 对 象 ， 可 能 为 None 
clip_box 对 象 的 裁 甬 杠 
clip_on 是 否 裁 前 
cli 裁 的 的 路 径 
contains 判断 指定 点 是 否 在 对 象 之 上 的 函数 
figure, 拥有 此 Artist 对象 的 Figure 对象， 可 能 为 None 
label 文本 标签 
transform 控制 偏 移 、 旋 转 、 缩 放 等 坐标 变换 
visible | 是 否 可 见 
Zorder | 绘图 顺序 

Artist 对 象 的 所 有 属性 都 可 以 通过 相应 的 get_*0O 和 set_*0 方 法 进行 读 写 , 例如 下 面 的 语句 将 


新 绘制 的 曲线 对 象 的 alpha 属性 设置 0.5， 使 它 变 成 半 透 明 : 


line = plt.plot([1, 2, 3, 2, 1], lw=4)[@] 


line.set_alpha(@.5) 


可 以 使 用 set0 一 次 设置 多 个 属性 : 


line.set(alpha=0.5, zorder=2) 


使 用 前 面 介绍 的 getp0 可 以 方便 地 输出 Artist 对 象 的 所 有 属性 名 以 及 与 之 对 应 的 值 ; 


plt.getp(fig.patch) 


aa = False 
agg_filter = None 
alpha = None 
animated = False 


4.2.2 ”Figure 容器 


现在 我 们 知道 如 何 观察 和 修改 Artist 对 象 的 属性 ， 接 下 来 要 解决 的 问题 是 如 何 找到 指定 的 
Artist 对 象 。 前 面 介 绍 过 Artist 对 象 有 容器 类 型 和 简单 类 型 两 种 ， 这 一 节 让 我 们 详细 看 看 容器 
类 型 。 

在 构成 图 表 的 各 种 Artist 对 象 中 ， 最 上 层 的 Artist 对 象 是 Figure， 它 包含 组 成 图 表 的 所 有 元 
素 。 当 调用 add_subplot0 或 add_axes0 方 法 往 图 表 中 添加 子 图 时 ， 这 些 子 图 都 将 添加 到 axes 属性 
列表 中 , 同时 这 两 个 方法 也 返回 新 创建 的 Axes 对 象 。 注意 add_subplot0 和 add_axes0 所 返回 对 象 
的 类 型 有 所 不 同 ， 分 别 为 AxesSubplot 和 Axes，AxesSubplot 是 Axes 的 派生 类 。 


fig = plt.figure() 

ax1 = fig.add_subplot(211) 

ax2 = fig.add_axes([6.1，6.1，6.7，6.3]) 
print axl in fig.axes and ax2 in fig.axes 
True 


为 了 支持 gca0 等 函数 ，Figure 对 象 内 部 保存 有 当前 轴 的 信息 ， 因 此 不 建议 直接 对 axes 属性 
进行 列表 操作 ， 而 应 该 使 用 add_subplot0、add_axes0、delaxes0 等 方法 进行 子 图 的 添加 和 删除 操 
作 。 但 是 使 用 for 循环 对 axes 属性 中 的 每 个 元 素 进行 操作 是 没有 问题 的 ， 下 面 的 语句 打开 所 有 
子 图 的 栅 格 显示 。 


for ax in fig.axes: 
ax.grid(True) 


Figure 对象 可 以 拥有 自己 的 文字 、 线条 以 及 图 像 等 简单 类 型 的 Artist 对象 。 默认 的 坐标 系统 
以 像素 点 为 单位 ， 但 是 可 以 通过 设置 Artist 对 象 的 transform 属性 修改 其 所 使 用 的 坐标 系 。 例 如 
Figure 对 象 的 坐标 系 是 以 图 表 的 左下 角 为 坐标 原点 (0,0), 右上 角 的 坐标 为 (1,1)， 关于 坐标 变换 在 
后 面 的 章节 还 会 进行 详细 介绍 。 下 面 的 程序 创建 一 个 Figure 对 象 ， 并 在 其 中 添加 两 条 直线 : 


from matplotlib.lines import Line2D 
fig = plt.figure() 
linel = Line2D( 

[e, 1], [8, 1], transform=fig.transFigure, figure=fig, color="r") 
line2 = Line2D( 

[e, 1], [1, 8], transform=fig.transFigure, figure=fig, color="g") 
fig.lines.extend([line1, line2]) 
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为 了 让 所 创建 的 Line2D 对 象 使 用 Figure 对 象 的 坐标 系 , 我 们 将 Figure 对 象 的 ransFigure 属 
性 赋 给 Line2D 对 象 的 transform 属性 。 为 了 让 Line2D 对 象 知道 它 是 在 Figure 对 象 中 ， 还 设置 其 
figure 属性 为 fg。 最 后 还 需要 将 这 两 个 Line2D 对 象 添加 到 Figure 对 象 的 lines 属性 列表 中 。 

表 42 列 出 了 Figure 对 象 中 包含 其 他 Artist 对 象 的 属性 : 


表 4-2 包含 其 他 Artist 对 象 的 Figure 对 象 属性 


属性 说 明 

axes Axes 对 象 列表 
Patch 作为 背景 的 Rectangle 对 象 

mk FigureImage 对 象 列表 
legends Legend 对 象 列表 
lines, Line2D 对 象 列表 

atches Patch 对 象 列表 
texts Text 对 象 列表 ， 用 于 显示 文字 


4.2.3 ”Axes 容器 


Axes 容器 ( 子 图 ) 是 整个 matplotlib 的 核心 ， 它 包含 了 组 成 图 表 的 众多 Artist 对象， 并 且 有 许 
多 方法 函数 帮助 我 们 创建 和 修改 这 些 对 象 。 和 Figure 容器 一 样 , 它 有 一 个 patch 属性 作为 背景 ， 
当 它 是 销 卡 尔 坐 标 时 , patch 属性 是 一 个 Rectangle 对 象 ; 而 当 它 是 极 坐 标 时 , patch 属性 则 是 Circle 
对 象 。 例 如 下 面 的 语句 将 Axes 对 象 的 背景 色 设置 为 绿色 : 
fig = plt.figure() 
ax = fig.add_subplot(111) 
ax.patch. set_facecolor("green") 


当 调 用 Axes 对 象 的 绘图 方法 plot0 时 ， 它 将 创建 一 组 Line2D 对 象 ， 并 将 它们 添加 进 Axes 
对 象 的 lines 属性 中 ， 最 后 返回 包含 所 有 创建 的 Line2D 对 象 的 列表 。plot0 的 所 有 关键 字 参 数 都 
将 传递 给 这 些 Line2D 对 象 以 设置 它们 的 属性 : 


x, y = np.random.rand(2，166) 
line = ax.plot(x, y, "-", color="blue", linewidth=2)[8] 
line is ax.lines[6] 


True 


注意 plot0 返 回 的 是 一 个 Line2D 对 象 列表 , 因为 可 以 传递 多 组 X-Y 轴 的 数据 给 plot0, 同时 
绘制 多 条 曲线 。 


与 plot0 类 似 , 绘制 柱状 图 的 函数 bar0 和 绘制 直方 统计 图 的 函数 hist0 将 创建 一 个 Patch 对象 


的 列表 , 每 个 元 素 实际 上 都 是 从 Patch 类 派生 的 Rectangle 对 象 , 所 创建 的 Patch 对 象 都 被 添加 进 


了 Axes 对 象 的 patches 属性 中 : 


fig，ax = plt.subplots() 


n, bins, rects = ax.hist(np.random.randn(1666)，56，facecolor="blue") 


rects[6] is ax.patches[6] 
True 


- 般 我 们 不 会 直接 对 lines 或 patches 


属性 进行 操作 ， 而 是 调用 add_line0 或 add_patch0 等 方 


法 ， 这 些 方法 帮助 我 们 完成 许多 属性 的 设置 工作 。 下 面 首先 创建 Axes 对 象 ax 和 Rectangle 对 


象 rect: 


fig, ax = plt.subplots() 


rect = plt.Rectangle((1,1), width=5, height=12) 
然后 通过 add_patch0 将 rect 添 加 进 ax 中 : 


ax.add_patch(rect) # 将 rect 添加 进 ax 


rect.get axes() is ax 
True 


接 下 来 ， 为 了 完整 显示 rect， 调 
范围 : 


print ax.get_xlim() # ax 的 X 轴 范 F 


] ax 的 autoscale_view0 方 法 让 它 自 动 调节 X-Y 轴 的 显示 


目 为 6 到 1， 无 法 显示 完整 的 rect 


print ax.dataLim._get_bounds() # 数据 的 范围 和 rect 的 大 小 一 致 
ax.autoscale_view() # 自动 调整 坐标 轴 的 范围 
print ax.get_xlim() # 于 是 X 轴 可 以 完整 显示 rect 


(8.6，1.6) 
(1.0, 1.0, 5.0, 12.0) 
(1.9，6.6) 

表 4-3 列 出 了 Axes 对 象 中 可 以 包含 其 他 Artist 对 象 的 属性 : 

表 4-3 包含 其 他 Artist 对 象 的 Axes 对 象 属性 
属性 说 明 

artists Artist 对 象 列表 
patch 作为 Axes 背景 的 Patch 对 象 ， 可 以 是 Rectangle 或 Circle 
collections Collection 对 象 列 表 
images AxesImage 对 象 列表 
legends Legend 对 象 列表 
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( 续 表 ) 
属性 说 明 
lines Line2D 对 象 列表 
Patches Patch 对 象 列 表 
texts Text 对 象 列表 
xaxis XAxis 对 象 
yaxis YAxis 对象 


表 44 列 出 了 Axes 对 象 的 各 种 创建 其 他 Artist 对 象 的 方法 : 


表 4-4 Axes 对 象 提供 的 创建 其 他 Artist 对 象 的 方法 
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Axes 的 方法 所 创建 的 对 象 添加 进 的 列表 
annotate Annotate texts 
bars Rectangle patches 
errorbar Line2D、Rectangle lines,patches 
fll Polygon patches, 
hist Rectangle patches 
imshow AxesImage images 
legend Legend legends 
plot Line2D lines 
scatter PolygonCollection collections 
text Text texts 


例如 下 面 的 程序 调用 scatter0 绘 制 散 列 图 ， 它 返回 的 是 一 个 PathCollection 对 象 ， 该 对 象 被 
添加 进 ax.collections 列表 : 

fig, ax = plt.subplots() 

t = ax.scatter(np.random.rand(26)，np.random.rand(26)) 


print t, t in ax.collections 
<matplotlib.collections.PathCollection object at 6x682339B6> True 


4.2.4 ”Axis 容器 


Axis 容器 包括 坐标 轴 上 的 刻度 线 、 刻 度 文 本 、 坐 标 网 格 以 及 坐标 轴 标 题 等 内 容 。 刻 度 包 括 
主 刻度 和 副 刻度 ， 分 别 通过 get_major_ ticks0 和 get_minor ticks0 方 法 获得 。 每 个 刻度 线 都 是 一 个 
XTick 或 YTick 对 象 ， 它 包括 实际 的 刻度 线 和 刻度 文本 。 为 了 方便 访问 刻度 线 和 文本 ，Axis 对 
象 提供 了 getticklabels0 和 get_ticklines0 方 法 来 直接 获得 刻度 线 和 刻度 文本 。 


下 面 先 创建 一 个 子 图 并 获得 其 XX 轴 对 象 axis: 


fig, ax = plt.subplots() 
axis = ax.xaxis 


下 面 获得 axis 对 象 的 刻度 位 置 的 列表 : 


axis.get ticklocs() 
ray(l 0 O02 04 06 .0:8 10 1) 


下 面 获 得 axis 对 象 的 刻度 标签 以 及 标签 中 的 文字 : 


print axis.get_ticklabels() # 获得 刻度 标签 的 列表 

print [x.get_text() for x in axis.get_ticklabels()] # 获得 刻度 的 文本 字符 串 
<a list of 6 Text major ticklabel objects> 

[OB Or U0 


axis.get_ticklines(minor=True) # 获得 副 刻度 线 列表 
<a list of @ Line2D ticklines objects> 


F 面 获得 轴 上 表示 主 刻度 线 的 列表 ， 可 以 看 到 X 轴 上 共有 12 条 刻度 线 ， 它 们 是 子 图 的 上 于 

下 两 个 X 轴 上 的 所 有 刻度 线 : | 各 
axis.get ticklines() | 机 

<a list of 12 Line2D ticklines objects> | 日 

， 美 

而 由 于 图 中 没有 副 刻 度 线 ， 因 此 副 刻度 线 列表 的 长 度 为 0: 的 

| 表 


获得 刻度 线 或 刻度 标签 之 后 ， 可 以 设置 其 各 种 属性 ， 下 面 设 置 刻 度 线 为 绿色 粗 线 ， 文 本 为 
红色 并 且 旋转 45°*。 最 终结 果 如 图 4-8 所 示 : 


for label in axis.get ticklabels(): 
label.set_color("red") 
label.set_rotation(45) 
label.set_fontsize(16) 


for line in axis.get ticklines(): 
line.set_color("green") 
line.set_markersize(25) 
line.set_markeredgewidth(3) 
fig 
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图 48 配置 X 轴 的 刻度 线 和 刻度 文本 的 样式 


这 个 例子 只 是 为 了 演示 Artist 对 象 的 各 种 属性 ， 实 际 上 使 用 pyplot 模块 中 的 xticks0 能 够 更 
快 地 完成 X 轴 上 的 刻度 文本 的 配置 。 不 过 ，xticks0 只 能 设置 刻度 文本 的 属性 ， 不 能 设置 刻度 线 
的 属性 。 感 兴趣 的 读者 可 以 在 IPython 中 输入 pltxticks?? 来 查看 源 代码 。 


plt.xticks(fontsize=16, color="red", rotation=45) 


在 前 面 的 例子 中 ， 副 刻度 线 列表 为 空 ， 这 是 因为 用 于 计算 副 刻 度 位 置 的 对 象 默认 为 
NullLocator， 它 不 产生 任何 刻度 线 。 而 计算 主 刻度 位 置 的 对 象 为 AutoLocator， 它 会 根据 当前 的 
缩放 等 配置 自动 计算 刻度 的 位 置 : 


print axis.get_minor_locator() # 计算 副 刻度 位 置 的 对 象 
print axis.get_major_locator() # 计算 主 刻度 位 置 的 对 象 
<matplotlib.ticker.NullLocator object at 6x68364F56> 
<matplotlib.ticker.AutoLocator object at 6x684285D6> 


matplotlib 提供 了 多 种 配置 刻度 线 位 置 的 Locator 类 和 控制 刻度 文本 显示 的 Formatter 类 。 下 
面 的 程序 设置 X 轴 的 主 刻度 为 x/4， 副 刻度 为 x/20， 并 且 主 刻度 上 的 文本 用 数学 符号 显示 Tt。 
程序 的 输出 如 图 49 所 示 。 


from fractions import Fraction 

from matplotlib.ticker import MultipleLocator, FuncFormatter © 
x = np.arange(8, 4*np.pi, 0.81) 

fig, ax = plt.subplots(figsize=(8,4)) 

plt.plot(x, np.sin(x), x, np.cos(x)) 


def pi formatter(x, pos): © 
frac = Fraction(int(np.round(x / (np.pi/4))), 4) 
d, n = frac.denominator, frac.numerator 
if frac == @: 
return "@" 


elif frac == 1: 
return "$\pi$" 


elif d == 1: 
return r"${%d} \pi$" %n 
elif n == 1: 


return r"$\frac{\pi}{%d}$" %d 
return r"$\frac{%d \pi}{%d}$" % (n, d) 


# 设置 两 个 坐标 铀 的 范围 
plt.ylim(-1.5,1.5) 
plt.xlim(8, np.max(x)) 


# 设置 图 的 底 边 距 
plt.subplots_adjust(bottom = 9.15) 


plt.grid() # 开 启 网 格 


# 主 刻度 为 pi/4 
ax.xaxis.set_major_locator( MultipleLocator(np.pi/4) ) © 


# 主 刻度 文本 用 pi_formatter 函数 计算 
ax.xaxis.set_major_formatter( FuncFormatter( pi formatter ) ) © 


# 副 刻度 为 pi/28 
ax.Xxaxis.set_minor_locator( MultipleLocator(np.pi/26) ) © 


# 设置 刻度 文本 的 大 小 
for tick in ax.xaxis.get_major_ticks(): 
tick.label1.set_fontsize(16) 
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图 49 配置 X 轴 的 刻度 线 的 位 置 和 文本 ， 并 开启 副 刻 度 线 
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@ 刻 度 定位 和 文本 格式 化 相关 的 类 都 在 matplotlibtticker 模块 中 定义 ， 程 序 从 中 载 入 了 如 下 


e MultipleLocator: 日 @ 以 指定 值 的 整数 倍 为 刻度 放置 主 副 刻度 线 。 

e FuncFormatter: @ 使 用 指定 的 函数 计算 刻度 文本 ， 它 会 将 刻度 值 和 刻度 的 序号 作为 参数 
传递 给 计算 刻度 文本 的 函数 。@ 程 序 中 通过 pi_formatter0 计 算出 与 刻度 值 对 应 的 刻度 
文本 。 


4.2.5 Artist 对 象 的 关系 


为 了 方便 读者 理解 图 表 中 各 种 Artist 对 象 之 间 的 关系 , 本 书 提供 了 一 个 输出 Artist 对 象 关系 
图 的 小 程序 。 


[eo | scpy2.common.GraphvizMatplotlib: 将 matplotlib 的 对 象 关系 输出 成 如 图 4-10 所 示 的 关 
[DO 条 图 。 


为 了 生成 关系 图 ,读者 可 以 从 Graphviz 的 官方 网 站 下 载 Graphviz 软件 包 , 或 者 使 用 Graphviz 
的 在 线 编辑 器 。 下 面 看 一 个 例子 : 
fig = plt.figure() 
plt.subplot(211) 
plt.bar([1, 2, 3], [1, 2, 3]) 
plt.subplot(212) 
Dit\piottl i a al 


下 面 调用 GraphvizMatplotlib.graphviz0， 将 fig 内 部 各 个 Artist 对 象 的 关系 输出 为 dot 代码 ， 
并 使 用 %dot 魔法 命令 将 其 转换 为 SVG 图像， 显示 在 Notebook 中 。 结 果 为 图 4-10 所 示 的 关 
系 图 : 


from scpy2.common import GraphvizMatplotlib 
%dot GraphvizMatplotlib.graphviz(fig) 


图 4-10 中 以 灰色 填充 矩形 表示 列表 ， 其 他 的 矩形 表示 各 种 Artist 对 象 。Artist 对象 之 间 的 关 
系 使 用 带 第 头 的 细 线 表示 ， 细 线 旁 边 的 文本 为 属性 名 。 

例如 从 Figure 矩形 到 Rectangle 矩形 的 箭头 表示 Figure 对 象 的 patch 属性 是 一 个 Rectangle 
对 象 。 而 Figure 对 象 的 axes 属性 是 一 个 有 两 个 元 素 的 列表 ， 每 个 元 素 都 是 一 个 AxesSubplot 
对 象 。 请 读者 仔细 观察 图 4-10， 并 在 IPython 中 输入 相应 的 语句 ， 确 认 各 个 Artist 对象 之 间 的 
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图 4-10 使 用 GraphvizMatplotlib 生成 图 表 对 象 中 各 个 Artist 对 象 之 间 的 关系 图 


43 ”坐标 变换 和 注释 


与 本 节 内 容 对 应 的 Notebook 为 : 04-matplotlib/matplotlib-300-transform ipynb。 


一 幅 图 表 中 涉及 多 种 坐标 系 以 及 坐标 变换 , 理解 各 种 坐标 系 的 含义 并 掌握 其 用 法 才能 随心 
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: 所 和 欲 地 使 用 matplotlib 绘制 出 理想 效果 的 图 表 。 本 节 以 图 表 中 的 文字 、 箭头 和 标注 为 例 介 绍 各 种 
| 坐标 系 及 其 变换 。 


def func1(x): © 
return 8.6*x + 89.3 


def func2(x): © 
return @.4*x*x + 0.1*x + 0.2 


def find_curve_intersects(x, yl1, y2): 
! d=yl-y2 

| idx = np.where(d[:-1]*d[1:]<=8)[0] 
x1, x2 = x[idx], x[idx+1] 

d1, d2 = d[idx], d[idx+1] 

return -di*(x2-x1)/(d2-d1) + x1 


x1, x2 = find_curve_intersects(x, f1, f2) © 
ax.plot(x1, func1i(x1), "o") 
ax.plot(x2, func1(x2), "0o") 


寻 | x = np.linspace(-3,3,166) @ 

电 ! f1 = func1(x) 

导 | f2 = func2(x) 

绘 | fig，ax = plt.subplots(figsize=(8,4)) 
i 

挤 ! ax.plot(x, f1) 

美 | ax.plot(x, f2) 

的 | 

图 } 

表 


ax.fill_between(x, f1, f2, where=f1>f2, facecolor="green", alpha=0.5) © 


from matplotlib import transforms 
! trans = transforms.blended_transform factory(ax.transData, ax.transAxes) 
ax.fill_between([x1, x2], 8, 1, transform=trans, alpha=0.1) © 


a = ax.text(8.65，8.95，u" 直 线 和 二 次 曲线 的 交点 
transform=ax.transAxes, 

| verticalalignment = "top", 

| fontsize = 18， 

| bbox={"facecolor":"red","alpha":0.4,"pad" :10} 


| arrow = {"arrowstyle":"fancy,tail width=8.6", 


! "facecolor":"gray", 
"connectionstyle":"arc3,rad=-0.3"} 
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ax.annotate(u" 交 点 ", @ 
xy=(x1, func1(x1)), xycoords="data", 
xytext=(0.65, 8.5), textcoords="axes fraction", 
arrowprops = arrow) 


ax.annotate(u" 交 点 ",@ 
xy=(x2, func1(x2)), xycoords="data", 
xytext=(0.65, 8.5), textcoords="axes fraction", 
arrowprops = arrow) 


xm = (x1+x2)/2 
ym = (funci(xm) - func2(xm))/2+func2(xm) 
0 = ax.annotate(u" 直 线 大 于 曲线 区 域 "，@ 
Xy =(xm, ym), xycoords="data", 
xytext = (36，-36)，textcoords="offset points", 


bbox={"boxstyle":"round", "facecolor":(1.0, 0.7, 08.7), "edgecolor":"none"}, 


fontsize=16, 
arrowprops={"arrowstyle":"->"} 


) 


程序 的 输出 如 图 4-11 所 示 。 在 图 4-11 中 演示 了 下 面 列 出 的 标注 效果 : 


图 4-11 为 图 表 添加 各 种 注释 元 素 


e 用 两 个 小 圆 点 表示 直线 和 曲线 的 两 个 交点 。 
® 对 两 个 交点 之 间 、 位 于 直线 和 曲线 之 间 的 面积 进行 了 填充 。 


e 使 用 一 个 高 为 整个 子 图 高 度 、 左 右边 位 于 两 个 交点 的 矩形 表示 两 个 交点 之 间 的 区 间 。 


e 在 图 4-11 的 左上 角 放 置 了 说 明文 字 。 
e 对 两 个 交点 和 填充 面积 使 用 了 带 箭头 的 注释 说 明 。 


首先 , @ 定 义 了 两 个 函数 funcl 和 func2, 它们 分 别 是 计算 一 条 直线 和 一 条 二 次 


线 的 函数 。 
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@ 然 后 计算 这 两 个 函数 在 区 间 (-3,3) 上 的 值 ， 并 且 调 用 plot0 绘 制 成 曲线 图 。 

目 为 了 标 出 两 个 交点 ,我 们 用 find_curve_intersects0 计 算 两 条 曲线 和 和 也 的 交点 所 对 应 的 X 
轴 坐 标 xl 和 x2。 交 点 处 的 小 圆 点 仍然 使 用 plot0 进 行 绘制 ， 这 时 所 传递 的 X-Y 轴 的 数据 为 单一 
的 数值 ， 并 且 以 'o 为 样式 进行 绘图 。 


如 何 计算 两 条 曲线 的 交点 

当 两 条 曲线 的 立轴 坐标 值 y1 和 使 用 相同 的 义 轴 坐标 数组 x 计算 时 , 很 容易 计算 它们 的 
交点 。 首 先 计算 两 条 曲线 在 立轴 的 差 值 d=yl-y2，, 然后 找到 符号 相反 的 两 个 连续 的 差 值 的 下 标 
idx 和 idx+1。 计 算 直 线 (x[idx],dfidx])-(x[idx+1],dlidx+1]) 和 XX 轴 的 交点 就 可 得 到 两 条 曲线 交点 的 
义 轴 坐 标 xc。 如 果 要 计算 交点 的 立轴 坐标 ， 只 需要 调用 np.interp(xc, x, y1) 对 曲线 进行 线性 插值 
即 可 。 


@ 接 下 来 调用 f 训 _between0 绘 制 X 轴 上 在 两 个 交点 之 间 、Y 轴 上 在 两 条 曲线 之 间 的 面积 间 
分 ， 并 通过 facecolor 和 alpha 参数 指定 填充 的 颜色 和 透明 度 。f_between0 的 调用 参数 如 下 : 


fill_between(x, yl, y2=0, where=None) 


其 中 ,x 参数 是 长 度 为 N 的 数组 ,yl 和 y2 参数 是 长 度 为 N 的 数组 或 单个 数值 。 当 yl 或 y2 
为 单个 数值 时 ， 它 们 相当 于 一 个 长 度 为 N、 元 素数 值 都 相同 的 数组 。fil_between0 将 填充 Y 轴 
在 yl 和 y2 之 间 的 部 分 ,如 果 where 参数 为 None, 就 对 数组 x 中 的 所 有 元 素 进行 填充 ;如 果 where 
是 一 个 布尔 数组 ， 则 只 填充 其 中 Trme 所 对 应 的 部 分 。 程 序 中 的 数组 x 的 取 值 范围 为 -3, 3)， 由 
于 设置 了 条 件 where =f1> 亿 ， 因 此 只 绘制 直线 在 二 次 曲线 之 上 的 部 分 。 

@ 绘 制 X 轴 上 在 两 个 交点 之 间 的 和 矩形 区 域 ，@ 用 text0 在 图 表 中 添加 说 明文 字 ，@ 最 后 用 
annotate0 为 图 表 添 加 三 个 带 箭头 的 注释 。 

为 了 真正 理解 程序 的 细节 ， 首 先 需 要 了 解 matplotlib 中 坐标 变换 的 工作 原理 。 
4.3.1 4 种 坐标 系 

在 matplotlib 所 绘制 的 一 幅 图 表 中 ， 有 4 种 坐标 系 : 


e 数据 坐标 系 : 它 是 描述 数据 空间 中 位 置 的 坐标 系 ， 例 如 对 于 图 411， 它 的 数据 坐标 系 
的 范围 为 X 轴 在 (3,3) 之 间 ，Y 轴 在 (2, 5) 之 间 。 


。 子 图 坐标 系 : 描述 子 图 中 位 置 的 坐标 系 , 子 图 的 左下 角 坐 标 为 (0 0), 右上 角 坐 标 为 (1, D。 
e 图 表 坐 标 系 : 一 幅 图 表 可 以 包含 多 个 子 图 ， 并 且 子 图 周围 都 有 一 定 的 余 白 ， 因 此 还 需 


习 表 坐标 系 描述 图 表 显 示 区 域 中 的 某 个 点 ， 图 表 的 左下 角 坐 标 为 0, 0， 右 上 角 坐 
标 为 (1, D。 

e 窗口 坐标 系 : 它 是 绘图 窗口 中 以 像素 为 单位 的 坐标 系 。 左 下 角 坐 标 为 (0, 0)， 右 上 角 坐 
标 为 (width, heighb。 其 中 的 width 和 height 分 别 是 以 像素 为 单位 的 绘图 窗口 的 内 宽 和 内 
高 ， 不 包括 标题 栏 、 工 具 条 以 及 状态 栏 等 部 分 。 

Axes 对 象 的 ransData 属性 是 数据 坐标 变换 对 象 , transAxes 属性 是 子 图 坐标 变换 对 象 ,Figure 


对 象 的 transFigure 属性 是 图 表 坐 标 变换 对 象 。 


通过 上 述 坐 标 变换 对 象 的 transform0 方 法 ， 可 以 将 此 坐标 系 下 的 坐标 转换 为 窗口 坐标 系 中 


的 坐标 。 下 面 的 程序 计算 数据 坐标 系 中 的 坐标 点 C3, -2) 和 (3, 5) 在 绘图 窗口 中 的 坐标 : 


print type(ax.transData) 
ax.transData.transform([(-3,-2)，(3,5)]) 

<class “matplotlib.transforms.CompositeGenericTransform '> 
array([[ 86.， 32.]， 

[ 576., 288.]]) 


下 面 的 程序 计算 子 图 坐标 系 中 的 坐标 点 (0 0) 和 (1, DD) 在 绘图 窗口 中 的 位 置 , 得 到 的 结果 和 上 
面 的 相同 。 即 子 图 的 左下 角 坐 标 (0,0) 和 数据 坐标 系 中 的 坐标 (-3, -2) 在 屏幕 上 是 一 个 点 。 观 察 图 
4-11 可 以 知道 这 显然 是 正确 的 。 

ax.transAxes.transform([(8,86), (1,1)]) 
array([[ 88., 32.], 
[W576 288]] > 
最 后 计算 图 表 坐 标 系 中 坐标 点 (0 0) 和 (1, D 在 绘图 窗口 中 的 位 置 , 可 以 看 出 绘图 区 域 的 宽 为 


640 个 像素 ， 高 为 320 个 像素 : 


fig.transFigure.transform([(6,6)，(1,1)]) 


array([[ 8.， 从 ] 
L649, 3290.11) 


通过 坐标 变换 对 象 的 inverted0 方 法 ， 可 以 获得 它 的 逆 变 换 对 象 。 例 如 下 面 的 程序 计算 绘图 


窗口 中 的 坐标 点 G20, 160) 在 数据 坐标 系 中 的 坐标 ， 结 果 为 (-0.09677419, 1.5): 


inv = ax.transData.inverted() 

print type(inv) 

inv.transform((326，166)) 

<class “matplotlib.transforms.CompositeGenericTransform > 
array([-8.69677419， 1.5 ]) 


请 读者 仔细 观察 程序 所 输出 的 图 表 ， 子 图 的 上 下 余 白 相同 ， 而 左 侧 余 白 略 大 于 右 侧 余 白 ， 


因此 绘图 区 域 的 中 心 点 (320, 160) 并 不 是 数据 区 域 的 中 , ey 1.5)。 


当 调 用 set xlim0 修 改 子 图 所 显示 的 X 轴 范 围 之 后 ， 它 的 数据 坐标 变换 对 象 也 同时 发 生 了 


变化 : 


print ax.set_xlim(-3，2) # 设置 X 轴 的 范围 为 -3 到 2 

print ax.transData.transform((3，5)) # 数据 坐标 变换 对 象 已 经 发 生 了 变化 
(-3, 2) 
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下 面 回 头 看 看 图 4-11 中 绘制 矩形 区 间 的 程序 : 


from matplotlib import transforms 
trans = transforms.blended transform factory(ax.transData, ax.transAxes) 
ax.fill_between([x1, x2], 8, 1, transform=trans, alpha=0.1) 


和 矩形 区 间 使 用 包 L_between0 绘 制 。 由 于 所 绘制 矩形 的 左右 两 边 要 始终 经 过 两 个 交点 ， 因 此 
和 矩形 的 XX 轴 坐 标 必须 使 用 数据 坐标 系 中 的 坐标 : xl 和 x2。 而 由 于 矩形 的 高 度 始终 充满 整个 子 
图 的 高 度 ， 因 此 算 形 的 Y 轴 坐标 必须 是 子 图 坐标 系 中 的 坐标 : 0 和 1。 


如 使 用 axvspan0 和 axhspan0 可 以 快速 绘制 重 直 方向 和 水 平方 向 上 的 区 间 。 


旺 序 中 ， 使 用 blended_transform_factory0 创 建 这 种 混合 坐标 系 。 它 的 两 个 参数 都 是 坐标 变换 
对 象 , 它 从 第 一 个 参数 获得 X 轴 的 坐标 变换 ， 从 第 二 个 参数 获得 Y 轴 的 坐标 变换 。 因 此 它 所 返 
回 的 坐标 变换 对 象 rans 的 X 轴 使 用 数据 坐标 系 ， 而 Y 轴 使 用 子 图 坐标 系 。 程 序 中 ， 将 混合 坐 
标 变换 对 象 trans 传递 给 名 _between0 的 transform 参数 ， 这 样 所 绘制 的 填充 区 域 就 能 始终 保持 左 
右边 通过 两 个 交点 ， 而 上 下 边 位 于 子 图 边框 之 上 。 
4.3.2 ”坐标 变换 的 流水 线 


从 一 个 坐标 系 变换 到 另 一 个 坐标 系 ， 中 间 需 要 经 过 几 个 步 又。 而 且 数据 坐标 系 不 一 定 是 笛 

长 尔 坐 标 系 ， 它 可 能 是 极 坐标 系 或 对 数 坐标 系 。 因 此 坐标 系 的 变换 并 不 是 简单 的 二 维 仿 射 变换 

(2D Affine Transformation)。 让 我 们 从 最 简单 的 图 表 坐 标 变换 对 象 ransFigure 开始 , 介绍 matplotlib 
的 坐标 变换 是 如 何 进行 的 。 

通过 本 书 提供 的 GraphvizMPLTransform 可 以 将 坐标 变换 对 象 显示 为 关系 图 , 图 4-12 显示 了 
fig.transFigure 的 内 部 结构 。 


from scpy2.common import GraphvizMPLTransform 
%dot GraphvizMPLTransform.graphviz(fig.transFigure) 


和 
8 4 


80 0 0 
0 80 0 
.| 


BboxTransformTo 


图 4-12 图 表 坐 标 变换 对 象 的 内 部 结构 


这 个 坐标 变换 对 象 的 内 容 有 些 复杂 ， 它 是 一 个 BboxTransformTo 对 象 ， 其 中 包含 一 个 
TransformedBbox 对 象 ， 而 TransformedBbox 对 象 又 包含 一 个 Bbox 对 象 和 一 个 Affine2D 对 象 : 
。 Bbox: 定义 一 个 矩形 区 域 一 [Ex0, y0], [x1, y 蕊 。 在 本 例 中 ， 甜 形 的 两 个 顶点 坐标 分 别 
为 (0, 0) 和 (8 ,和 ， 它 是 窗口 的 英寸 大 小 ， 通 过 figsize 参数 传递 给 figure0。 
e Affine2D: 二 维 仿 射 变换 对 象 ， 它 是 一 个 和 矩阵， 通过 它 和 齐 次 向 量 相 乘 得 到 变换 之 后 的 
坐标 。 由 于 和 矩阵 中 只 有 对 角 线 上 的 值 不 为 零 ， 因 此 该 仿 射 变换 只 进行 缩放 变换 。 它 将 
坐标 (x, y) 变 换 为 (80*x, 80*y)。 


仿 射 变换 

二 维 空间 的 仿 射 变换 矩阵 的 大 小 为 3x3, 为 了 进行 仿 射 变换 需要 使 用 齐 次 坐标 , 即 用 三 维 
向 量 (x, y, D) 表 示 二 维 平面 上 的 点 (x,)。 仿 射 变 换 就 是 仿 射 矩阵 和 向 量 的 乘积 。 由 于 变换 矩阵 最 
下 一 行 的 数值 始终 是 (0,0, D)， 因 此 有 时 也 将 它 写 成 2x3 的 矩阵 形式 。 


e TransformedBbox: 将 矩形 区 域 通过 仿 射 变换 之 后 得 到 一 个 新 的 矩形 区 域 。 例 子 中 ， 所 


缓存 了 这 两 个 顶点 的 坐标 。 它 正好 是 以 像素 点 为 单位 的 窗口 的 大 小 ， 因 此 仿 射 变换 矩 
阵 中 的 数值 80 实际 上 是 Figure 对 象 的 dpi 属性 。 
e@ BboxTransformTo: 它 是 一 个 从 单位 矩形 区 域 转换 到 指定 的 矩形 区 域 的 变换 ,在 本 例 中 ， 
它 是 一 个 将 矩形 区 域 (0, 0)-(1, D 变 换 到 矩形 区 域 (0, 0)-(640, 320) 的 坐标 变换 对 象 ， 因 此 它 
能 将 坐标 从 图 表 坐 标 系 转换 为 窗口 坐标 系 中 的 坐标 。 其 _mtx 属性 缓存 了 该 变换 矩阵 。 
fig.transFigure 中 的 仿 射 变换 对 象 可 以 通过 fig.dpi_scale_trans 获得 : 
fig.dpi_scale trans == fig.transFigure. boxout. transform 
True 


接 下 来 我 们 查看 子 图 坐标 变换 对 象 的 内 容 (内 容 结构 参见 图 4-13): 


%dot GraphvizMPLTransform.graphviz(ax.transAxes) 


ee ee ots or Bbox | me 
0 | 
ber — 
oe | TransformedBbox ™ | BboxTransformTo | 一 ee Afine2D | -me ,| ™ 
— o 
BboxTransformTo| mw A Coal 
| oz S78 288 840 320 


图 413 子 图 坐标 变换 对 象 的 内 部 结构 


ax.transAxes 是 一 个 BboxTransformTo 对 象 ， 因 此 它 也 将 (0, 0)-(1, D 区 域 变换 为 另 一 个 区 域 。 
而 此 区 域 是 一 个 TransformedBbox 对 象 ， 它 是 将 矩形 区 域 (0.125, 0.1)-(0.9, 0.9) 通 过 fig.transFigure 
变换 之 后 的 区 域 。 因 此 在 transAxes 对 象 内 部 使 用 了 transFigure 变换 : 
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ax.transAxes._boxout. transform == fig.transFigure 
True 


而 此 变换 中 的 矩形 区 域 (0.125, 0.0)-(0.9,0.9) 是 子 图 在 图 表 坐 标 系 中 的 位 置 : 


ax.get_position() 
Bbox('array([[ 8.125, 86.1 ],\n 电信 


子 图 在 窗口 坐标 系 中 的 矩形 区 域 为 ; 


ax.transAxes._boxout .bounds 
(88.6，31.999999999999993，496.6，256.6) 


因此 ax.transAxes 实际 上 是 一 个 将 矩形 区 域 (0.0)-(1.1) 变 换 到 矩形 区 域 (80.0.32)-(496.0, 256.0) 
的 坐标 变换 对 象 。 
最 后 我 们 观察 数据 坐标 系 的 变换 对 象 axtransData( 内 部 结构 参见 图 4-14)。 它 由 axtransScale、 


238 


引 ax.transLimits 和 ax.transAxes 共 同 构成 ,因此 先 看 看 ax.transLimits 和 axtransScale 的 内 容 。transLimits 
时 是 一 个 BboxTranstormFrom 对 象 ， 它 是 一 个 将 指定 的 矩形 区 域 变换 为 (0,0)-(1,D) 矩 形 区 域 的 变换 
时 对 象 。 
给 
精 %dot GraphvizMPLTransform.graphviz(ax.transLimits) 
美 
的 02 0 
图 i 。 areamoammn 二 和 3 
表 BboxTransfomFrom| ,一 | 周一 并 一 a me 
TransformedBbox - ?| TransformWrapper| 一 -2 senseawmnezo| 2 pldentityTransform me 
本 yy | sq oo 
交 Ey ldentityTransform 


图 4-14 数据 坐标 变换 对 象 的 内 部 结构 


而 transLimits 的 源 矩 形 区 域 为 一 个 TransformedBbox 对 象 , 它 是 一 个 将 矩形 区 域 (-3, -2)-(2, 5) 
通过 坐标 变换 之 后 的 矩形 区 域 。 而 此 处 的 变换 由 TransformWrapper 对 象 定义 ， 在 图 4-14 中 它 
是 一 个 恒 等 变换 。 因 此 transLimits 的 最 终 效果 就 是 将 矩形 区 域 (-3,-2)-(2, 3) 变换 为 托 形 区 域 (0， 
0)-(1, 1): 


print ax.transLimits.transform((-3, -2)) 
print ax.transLimits.transform((2, 5)) 

[ 6. @.] 

[ET 


而 矩形 区 域 C3,-2)-2,5 由 X 轴 和 站 轴 的 显示 范围 决定 


print ax.get_xlim() # 获得 X 轴 的 显示 范围 
print ax.get_ylim() # 获得 Y 轴 的 显示 范围 


(-3.6，2.6) 
(-2.6，5.6) 


于 transLimits 将 数据 坐标 系 的 显示 范围 变换 为 单位 矩形 ,而 ransAxes 将 单位 矩形 变换 为 
以 像素 为 单位 的 窗口 矩形 范围 ， 因 此 这 两 个 变换 的 综合 效果 就 是 将 数据 坐标 变换 为 窗口 坐标 。 
可 以 用 “+” 号 将 两 个 变换 连接 起 来 创建 一 个 新 的 变换 对 象 ， 例 如 ax.transLimits + ax.transAxes 
表示 先进 行 axtransLimits 变换 ,然后 进行 ax.transAxes 变换 ， 变 换 对 象 就 像 流 水 线 上 生产 产品 一 
样 ， 一 步 一 步 地 对 坐标 点 进行 变换 。 下 面 的 程序 比较 它 和 ax.transData 的 变换 结果 : 


t = ax.transLimits + ax.transAxes 
print t.transform((6,6)) 

print ax.transData.transform((8,6)) 
[ 377.6 165.14285714] 

[ 377.6 165.14285714] 


为 了 支持 不 同比 例 的 坐标 轴 , transData 中 还 包括 一 个 transScale 变换 , 即 transData = transScale 
+transLimits + transAxes。 本 例 中 transScale 是 一 个 恒 等 变 换 ， 因 此 ax.transLimits + ax.transAxes 和 
ax.transData 的 变换 效果 一 样 : 


ax.transScale 
Transformwrapper(BlendedAffine2D(IdentityTransform(),IdentityTransform())) 


当 使 用 semilogx0、semilogy0 以 及 loglog0 等 绘图 函数 绘制 对 数 坐标 轴 的 图 表 时 ， 或 者 使 用 
Axes 的 set_xscale0 和 set_yscale0 等 方法 将 坐标 轴 设 置 为 对 数 坐 标 时 ，transScale 就 不 再 是 恒 等 变 
换 了 ， 其 内 部 结构 如 图 4-15 所 示 。 


本 | 
TransformWrapper | Blendedcenerorransom| 

~ 100 

IdentityTransform | 一 -me 010 

001 


图 4-15 和 X 轴 为 对 数 坐 标 时 transScale 对 象 的 内 部 结构 


Log10Transform 


由 于 本 例 中 X 轴 的 取 值 范围 包含 负数 ， 因 此 如 果 将 X 轴 改 为 对 数 坐 标 ， 并 且 重 新 绘 
图 ， 会 产生 很 多 错误 信息 。 


ax.set_xscale("log") # 将 X 轴 改 为 对 数 坐 标 
%dot GraphvizMPLTransform.graphviz(ax.transScale) 
ax.set_xscale("linear") # 将 X 轴 改 为 线性 坐标 
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4.3.3 制作 阴影 效果 
下 面 用 上 节 介 绍 的 坐标 变换 绘制 带 阴影 效果 的 曲线 。 完 整 程序 如 下 ， 效 果 如 图 4-16 所 示 : 


fig，ax = plt.subplots() 
x = np.arange(6.，2.，6.61) 
y = np.sin(2*np.pi*x) 


N = 7 # 阴影 的 条 数 
for i in xrange(N，6，-1): 
offset = transforms.ScaledTranslation(i, -i, transforms.IdentityTransform()) © 
shadow trans = plt.gca().transData + offset @ 
ax.plot(x,y,linewidth=4, color="black", 
transform=shadow trans, © 
alpha=(N-i)/2.6/N) 


ax.plot(x,y,1linewidth=4, color="black') 
ax.set ylim((-1.5, 1.5)) 


1.5 
1.0 
0.5 


0.0 


0.0 0.5 1.0 1.5 2.0 


图 4-16 使 用 坐标 变换 绘制 的 带 阴 影 的 曲线 


首先 使 用 循环 绘制 N 条 透明 度 和 偏 移 量 逐渐 变化 的 曲线 , 然后 绘制 实际 的 曲线 ， 以 实现 阴 
影 效果 。 

@offset 是 一 个 ScaledTranslation 对 象 ， 它 的 前 两 个 参数 决定 了 X 轴 和 YY 轴 的 偏 移 量 ， 而 第 
三 个 参数 是 一 个 坐标 变换 对 象 ， 经 过 它 变换 之 后 ， 再 进行 偏 移 变换 。 由 于 程序 中 的 第 三 个 参数 
是 一 个 恒 等 变 换 ， 因 此 offset 实际 上 是 一 个 单纯 的 偏 移 变换 : 对 X 轴 坐标 增加 i， 对 Y 轴 坐 标 
减少 i。 

下 面 查看 i 为 1 时 的 offset: 


offset .transform((8,6)) # 将 (8,8) 变 换 为 (1, -1) 
array([ 1., -1.]) 


四 阴影 曲线 的 坐标 变换 由 shadow_trans 完 成 , 它 由 数据 坐标 变换 对 象 transData 和 offset 组 成 。 


print ax.transData.transform((8,8)) # 对 (6,6) 进 行 数据 坐标 变换 

print shadow_ trans.transform((6,6)) # 对 (8,8) 进 行 数据 坐标 变换 和 偏 移 变换 
0 

E61 1103] 


最 后 通过 参数 transform 将 shadow_trans 传递 给 plot0 绘 图 。 由 于 shadow_trans 是 在 完成 数 
据 坐 标 到 窗口 坐标 的 变换 之 后 ， 再 进行 偏 移 变换 ， 因 此 无 论 当前 的 缩放 比例 如 何 ， 阴 影 效 果 将 
始终 保持 一 致 。 


4.3.4 添加 注释 


在 pyplot 模块 中 提供 了 两 个 绘制 文字 的 函数 : text0 和 figtext0。 它 们 分 别 调用 当前 Axes 对 
象 和 当前 Figure 对 象 的 text0 方 法 进行 绘图 。text0 默 认 在 数据 坐标 系 中 添加 文字 ， 而 figtext0 则 
默认 在 图 表 坐 标 系 中 添加 文字 。 可 以 通过 transform 参数 改变 文字 所 在 的 坐标 系 ， 下 面 的 程序 演 
示 了 在 数据 坐标 系 、 子 图 坐标 系 以 及 图 表 坐 标 系 中 添加 文字 : 


x = np.linspace(-1,1,10) 
2 


fig, ax = plt.subplots(figsize=(8,4)) 
ax.plot(x,y) 


for i, (_x, _y) in enumerate(zip(x, y)): 
ax.text(_x, _y, str(i), color="red", fontsize=i+10) © 


ax.text(8.5，8.8，u" 子 图 华 标 系 中 的 文字 "，color="blue"，ha="center"， 
transform=ax.transAxes) ©@ 


plt.figtext(8.1，8.92，u" 图 表 坐 标 系 中 的 文字 "，color="green") @ 


@ 由 于 没有 设置 transform 参数 ，text0 默 认 在 数据 坐标 系 中 创建 文字 ， 这 里 通过 fontsize 参 
数 修 改 文字 的 大 小 。@ 通 过 transform 参数 将 文字 的 坐标 变换 改 为 ax.transAxes， 因 此 文字 在 子 图 
坐标 系 中 。ha 参数 为 center 表 示 坐 标点 (0.3.0.8) 在 水 平方 向 上 是 文字 的 中 心 ，ha 是 
horizontalalignment 的 缩写 ， 其 含义 是 水 平 对 齐 。@ 调 用 figtext0 在 图 表 坐 标 系 中 添加 文字 。 

程序 的 输出 如 图 4-17 所 示 。 请 读者 使 用 缩放 和 平移 工具 改变 子 图 的 显示 范围 , 你 会 发 现 数 
据 坐 标 系 中 的 文字 将 跟随 曲线 变动 ， 而 其 他 两 个 坐标 系 中 的 文字 位 置 不 变 。 单 击 绘图 窗口 工具 
栏 中 的 倒数 第 二 个 图 标 按钮 ， 打 开 “Subplot Configuration Tool ”对话 框 ， 调 节 top、right、bottom 
和 left 等 参数 ， 你 会 发 现 子 图 坐标 系 中 的 文字 也 会 跟着 改变 位 置 ， 水 平方 向 上 它 和 子 图 的 中 心 
始终 保持 一 致 。 而 图 表 坐 标 系 中 文字 的 位 置 ， 只 有 在 改变 窗口 大 小 时 才 会 发 生变 化 。 
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内 坐标 系 中 的 文字 

0.8 子 图 坐标 系 中 的 文字 
0.6 
0.4 


0.2 


-1.0 -0.5 0.0 0.5 1.0 


图 4-17 三 个 坐标 系 中 的 文字 


绘制 文字 的 函数 还 有 许多 关键 字 参 数 用 于 设置 文字 、 外 框 的 样式 ， 请 读者 参考 matplotlib 
的 用 户 手册 ， 这 里 就 不 再 详细 介绍 了 。 

通过 pyplot 模块 的 annotate0 绘 制 带 箭头 的 注释 文字 ， 其 调用 参数 如 下 ; 

annotate(S，Xxy，Xytext=None，xycoords= 'data' ，textcoords= 'data' ，arrowprops=None，...) 
是 箭头 所 指 处 的 坐标 ，xytext 是 注释 文本 所 在 的 坐标 。xycoords 
和 textcoords 分 别 指定 箭头 坐标 和 注释 文本 坐标 的 坐标 变换 方式 。 

带 箭头 的 注释 需要 指定 两 个 坐标 : 箭头 所 指 处 的 坐标 和 注释 文字 所 在 的 坐标 。 而 这 两 个 坐 
标 可 以 使 用 不 同 的 坐标 变换 。 参 数 xycoords 和 textcoords 都 是 字符 串 ， 它 们 可 以 有 表 4-5 所 示 的 


儿 种 选项 ; 
表 4-5 属性 值 与 相应 的 坐标 变换 方式 
属性 值 坐标 变换 方式 
figure Points 以 点 为 单位 ， 相 对 于 图 表 左 下 角 的 坐标 
figure pixels 以 像素 为 单位 ， 相 对 于 图 表 左 下 角 的 坐标 
figure fraction 图 表 举 标 系 中 的 坐标 
axes points 以 点 为 单位 ， 相 对 于 子 图 左下 角 的 坐标 
axes pixels 以 像素 为 单位 ， 相 对 于 子 图 左下 角 的 坐标 
axes fraction 子 图 坐标 系 中 的 坐标 
data 数据 坐标 系 中 的 坐标 
offset points 以 点 为 单位 ， 相 对 于 点 xy 的 坐标 
Polar 数据 坐标 系 中 的 极 坐标 


其 中 fgure fraction'、'axes fraction 和 'data 分 别 表 示 使 用 图 表 坐 标 系 、 子 图 坐标 系 和 数据 坐标 
系 中 的 坐标 变换 对 象 。 由 于 图 表 和 子 图 坐标 系 都 是 正规 化 之 后 的 坐标 ， 使 用 起 来 不 太 方 便 ， 因 
此 对 于 图 表 和 子 图 还 分 别提 供 了 以 点 为 单位 和 以 像素 为 单位 的 坐标 变换 方式 。 点 和 像素 的 单位 
类 似 ， 但 是 它 不 会 随 着 图 表 的 dpi 属性 值 而 发 生变 化 ， 它 始终 以 每 英寸 72 个 点 进行 计算 。 
` 述 几 种 坐标 变换 都 以 固定 的 点 为 原点 进行 变换 , 有 时 我 们 希望 以 距离 箭头 的 偏 移 量 指定 
文字 的 坐标 ， 这 时 可 以 使 用 offset points 选 项 。 
在 图 4-11 中 ， 所 有 注释 的 箭头 坐标 都 采用 'data， 因 此 无 论 如何 放 大 或 平移 绘图 区 域 ， 箭 头 
始终 指向 数据 坐标 系 中 的 固定 点 。 而 注释 文本 “交点 ”的 坐标 变换 方式 采用 axes fraction， 因 此 
“交点 ”始终 保持 在 子 图 中 的 固定 位 置 。 而 “直线 大 于 曲线 区 域 ”注释 文本 的 坐标 采用 'offset 
points 变 换 ， 因 此 文字 和 箭头 的 相对 位 置 始终 保持 不 变 。 
最 后 ，arrowprops 参数 是 一 个 描述 箭头 样式 的 字典 。 关 于 注释 样式 的 详细 配置 请 参考 
matplotlib 的 相关 文档 。 


44 块 、 路 径 和 集合 


A 与 本 节 内 容 对 应 的 Notebook 为 : 04-matplotlib/matplotlib-400-patch-collections.ipynb。 


本 节 介 绍 构成 绘图 元 素 的 儿 个 重要 的 类 , 熟练 掌握 这 些 类 的 用 法 可 以 绘制 出 标准 的 绘图 函 
数 无 法 实现 的 效果 ， 并 且 能 极 大 地 提高 绘图 速度 。 


4.4.1 Path 与 Patch 


Patch 对 象 ( 块 ) 是 一 种 拥有 填充 和 边线 的 Artist 对 象 ， 例 如 多 边 形 、 椭 圆 等 都 是 Patch 对 象 ， 
它 的 边线 由 Path 对 象 描述 。 而 Path 对 象 的 vertices 和 codes 属性 是 两 个 数组 ， 分 别 用 于 描述 坐标 
点 和 每 个 坐标 点 对 应 的 绘图 命令 代码 。 表 4-6 列 出 了 各 种 命令 代码 : 


表 4-6 命令 代码 及 说 明 
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代码 定义 说 明 
0 STOP 停止 绘图 
1 MOVETO 将 当前 位 置 移动 到 对 应 的 坐标 点 
2 LINETO 从 当前 位 置 绘制 直线 到 对 应 的 坐标 点 
3 CURVE3 使 用 2 个 坐标 点 绘制 曲线 
4 CURVE4 使 用 3 个 坐标 点 绘制 曲线 
79 CLOSEPOLY 关闭 多 边 形 
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下 面 创建 一 个 左下 角 位 于 (0,D)、 宽 为 2、 高 为 1 的 Rectangle 算 形 对 象 ， 并 查看 与 之 对 应 的 
Path 对 象 的 vertices 和 codes 属性 : 


rect patch = plt.Rectangle((8, 1), 2, 1) 
rect_ path = rect_ patch.get path() 
rect_path.vertices rect_path.codes 


[eo on [7 和 7 
[EO] 
[ee 
ode] 
[ 0.， 8.]] 


对 照 前 面 的 命令 代码 表 ， 很 容易 理解 矩形 是 如 何 绘制 出 来 的 。 但 是 细心 的 读者 会 发 现 ， 
vertices 中 的 坐标 并 不 是 我 们 创建 矩形 时 指定 的 4 个 顶点 坐标 。 这 是 因为 所 有 的 矩形 对 象 都 共用 
同一 个 Path 对 象 ， 然 后 通过 前 面 介绍 过 的 transform 对 象 将 单位 矩形 的 Path 对 象 变换 到 指定 的 
坐标 之 上 。 下 面 通过 get_patch_transfrom0 获 得 Patch 的 坐标 变换 对 象 ,并 用 它 将 单位 矩形 的 顶点 
坐标 变换 为 我 们 所 创建 矩形 的 顶点 坐标 : 


tran = rect_patch.get_patch_transform() 
tran.transform(rect_path.vertices) 


epaytTP 0 131 
Ca ls 
es 
Boe dy 
Dis eel 


对 于 表示 复杂 曲线 的 Patch 对 象 ， 可 以 通过 诸如 InkScape 的 矢量 图 设计 软件 绘制 并 将 曲 
线 保存 成 SVG 文档 , 然后 从 SVG 文档 中 提取 曲线 信息 ,创建 相应 的 Patch 对 象 。 本 Ee 
从 简单 的 SVG 文件 中 获取 路 径 的 read_svg_pathO0 函 数 ， 下 面 是 用 它 绘制 的 Python 图 标 ， 参 
图 4-18: 


scpy2.matplotlib.svg_path: 从 SVG 文件 中 获取 简单 的 路 径 信息 。 可 以 使 用 该 模块 将 夭 
区 。 量 绘图 软件 创建 的 图 形 转换 为 Patch 对 象 。 
from scpy2.matplotlib.svg_path import read_svg_path 


ax = plt.gca() 
patches = read_svg_path("python-logo.svg") 


for patch in patches: 
ax.add_patch(patch) 


40 上 
60 上 
80 上 
100 上 
四 


ax.set_aspect("equal") 
ax.invert_yaxis() 
ax.autoscale() 


20 40 60 80 100 120 
图 4-18 使 用 本 书 提供 的 read_svg_path0 读 入 SVG 文 件 中 的 路 径 并 显示 为 Patch 对 象 
4.4.2 集合 
当 需 要 绘制 大 量 图 形 时 ， 可 以 使 用 从 Collection 类 派生 的 各 种 集合 对 象 。 在 绘制 图 形 时 ， 


Collection 对 象 会 将 其 中 多 个 保存 绘图 信息 的 列表 传递 给 C++ 编写 的 绘图 函数 ， 从 而 提高 绘图 速 
度 。 表 4-7 列 出 了 这 些 列 表 属 性 ， 当 列表 长 度 不 统一 时 ， 短 列表 中 的 元 素 将 被 循环 使 用 。 


表 4-7 Collection 类 的 列表 属性 及 说 明 


州 加 车 


属性 说 明 
aths 绘图 路 径 
transforms 坐标 变换 对 象 
edgecolors 边线 颜色 
facecolors 填充 颜色 
linewidths 边线 宽度 
offsets 坐标 偏 移 量 


Collection 对 象 中 的 路 径 从 路 径 坐 标 到 屏幕 坐标 要 进行 三 次 坐标 变换 : 
e transform: 主 坐 标 变换 。 
e@ transforms: 与 Collection 中 每 条 路 径 对 应 的 路 径 变 换 。 
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e transOffset 和 offsets: 坐标 偏 移 用 的 变换 对 象 和 偏 移 量 ， 对 offsets 中 的 每 个 坐标 采 
transOffset 进行 坐标 变换 得 到 实际 的 坐标 偏 移 量 。 

根据 offset_position 参数 的 值 ， 分 为 如 下 两 种 情况 : screen( 默 认 值 ) 和 data。 

e screen: 坐标 变换 的 顺序 为 -一 路 径 变换 、 主 变换 、 坐 标 偏 移 。 

e data; 坐标 变换 的 顺序 为 一 坐标 偏 移 、 路 径 变换 、 主 变换 。 

下 面 通过 几 个 实例 帮助 读者 理解 上 述 各 种 属性 和 变换 。 

1. 曲线 集合 (LineCollectiom) 


在 文件 "butterfly.txt" 中 每 一 行 保存 一 条 封闭 曲线 上 各 点 的 坐标 ， x0 y0 xlyl x2 y2 …。 上 在 循 
环 读 入 这 些 坐 标 时 , 将 第 一 个 点 的 坐标 添加 到 列表 尾部 , @ 然 后 将 其 转换 为 形状 为 (N,2) 的 数组 ， 
其 中 N 为 曲线 上 的 点 数 加 1。 

lines 是 一 个 保存 多 个 数组 的 列表 , 每 个 数组 表示 一 条 曲线 。 可 以 通过 LineCollection 绘制 jines 
保存 的 曲线 集合 。@colors 参数 设置 所 有 曲线 的 颜色 为 黑色 ，@ 也 可 以 通过 cmap 参数 设置 所 使 
用 的 颜色 映射 表 ， 曲 线 的 颜色 由 array 参数 数组 中 的 值 和 颜色 映射 表决 定 。 这 里 将 曲线 的 点 数 
的 对 数 作 为 颜色 映射 表 的 输入 值 。 


from matplotlib import collections as mc 
lines = [] 
with open("butterfly.txt", "r") as f: 
for line in f: 
points = line.strip().split() 
points.extend(points[:2]) © 
points = np.array(points).reshape(-1, 2) © 
lines.append(points) 


fig, (ax1l, ax2) = plt.subplots(1, 2, figsize=(8, 4)) 

lc1 = mc.LineCollection(lines, colors="k", linewidths=1) © 

lc2 = mc.LineCollection(lines, cmap="Paired", linewidths=1, ©@ 
array=np.log2(np.array([len(line) for line in lines]))) 

ax1.add_collection(1c1) 

ax2.add_collection(1c2) 


for ax in axl, ax2: 
ax.set_aspect("equal") 
ax.autoscale() 
ax.axis("off") 


图 419 使 用 LineCollection 显示 大 量 曲线 


lcl 和 1c2 中 都 有 145 条 路 径 ，lcl 的 edgecolors 属性 长 度 为 1， 因 此 所 有 的 曲线 都 采用 相同 
的 颜色 。 而 lc2 的 edgecolors 属性 长 度 为 145， 其 中 的 每 个 颜色 都 是 通过 normn0 和 cmap0 计 算得 
到 的 。 


print“number of lc1 paths:"，len(1c1.get_paths()) 

print “number of lc1 colors:", len(lc1.get edgecolors()) 

print "number of lc2 colors:", len(lc2.get_ edgecolors()) 

print np.all(lc2.get edgecolors() == lc2.cmap(lc2.norm(lc2.get_array()))) 
number of lc1 paths: 145 

number of lc1 colors: 1 

number of lc2 colors: 145 

True 


下 面 显示 路 径 变 换 、 主 变换 、 坐 标 偏 移 ， 可 以 看 到 唯一 起 作用 的 是 主 变 换 ， 它 就 是 数据 从 
标 变换 对 象 ， 它 将 曲线 上 各 个 点 的 坐标 从 数据 坐标 系 转换 到 屏幕 坐标 系 。 


print lc1.get_transforms() # 路 径 变换 

print lc1.get_transform() is ax1.transData # 主 变换 为 数据 坐标 变换 对 象 
print lc1.get_offset_transform()，1c1.get_offsets() 

[] 

True 

IdentityTransform() [[ 6. 8.]] 


使 用 LineCollection 可 以 绘制 颜色 或 宽度 渐变 的 曲线 , 例如 下 面 对 一 个 二 维 平面 上 的 矢量 场 
职 分 ， 并 将 所 得 的 路 径 保存 到 streams 列表 中 。 它 的 长 度 为 5， 其 中 每 个 数组 表示 一 条 积分 路 
径 ， 形 状 为 (50, 2)。 


from scipy.integrate import odeint 


def field(s, t): 
x,y=s 
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return 06.3 *x-y, 0.3*y+x 
return [u, v] 


xX, Y = np.mgrid[-2:2:5j, -2:2:5j] 
init pos = np.c_[X.ravel(), Y.ravel()] 
t = np.linspace(6，5，56) 


streams = [] 

for pos in init pos: 
r= odeint(field, pos, t) 
streams.append(r) 


print len(streams), streams[8].shape 
25 (50, 2) 


为 了 采用 渐变 颜色 显示 每 条 积分 路 径 ， 先 将 streams 转换 成 一 个 三 维 数组 lines， 形 状 为 
(25*(50-1),2,2), 也 就 是 由 1225 条 线段 组 成 的 集合 。 我 们 使 用 两 种 数值 作为 颜色 映射 表 的 输入 : 
time_value 和 speed_value。 其 中 time_value 为 到 达 对 应 坐标 点 所 需 的 时 间 ，speed_value 为 对 应 坐 
标点 处 的 速度 大 小 ， 效 果 如 图 4.20 所 示 。 


lines = np.concatenate([ 
np.concatenate((r[:-1, None, :], r[1:, None, :]), axis=1) 
for r in streams]，axis=6) 


time_value = np.concatenate([t[:-1]] * len(streams)) 
x, y = lines.mean(axis=1).T 

u, v = field([x, y], 8) 

Speed value = np.sqrt(u ** 2 + V ** 2) 


fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(10, 3.5)) 
fig.subplots_adjust(8, 8, 1, 1) 

ax1.plot(init pos[:, 8], init pos[:, 1], "x") 
ax2.plot(init pos[:, 8], init pos[:, 1], "x") 


lc1 = mc.LineCollection(lines, linewidths=2, array=time_value) 
1c2 


mc.LineCollection(lines, linewidths=2, array=speed_value) 


ax1l.add_collection(1c1) 
ax2.add_collection(1c2) 


"时 间 ") 
"速度 ") 


plt.colorbar(ax=ax1, mappable=1lc1, label 


plt.colorbar(ax=ax2, mappable=1lc2, label=U 


for ax in axl，ax2: 
ax.plot(init pos[:, 8], init pos[:, 1], "x") 
ax.autoscale() 
ax.set_aspect("equal") 
ax.set xlim(-10, 10) 
ax.set ylim(-19，16) 
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图 420 使 用 LineCollection 绘制 颜色 渐变 的 曲线 
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2. 多 边 形 集合 (PolyCollection) 


多 边 形 集合 PolyCollection 的 用 法 和 LineCollection 类 似 , 不 过 它 会 自动 封闭 并 填充 颜色 。 下 | 区 
面 的 star_polygon0 创 建 以 (x,y) 为 中 心 、r 为 半径 、 旋 转 theta 的 N 角 星 ，s 参数 为 内 圆 的 半径 与 外 ， 表 


圆 半 径 的 比值 ， 效 果 如 图 4-21 所 示 。 在 随机 创建 1000 个 N 角 星 后 ， 调 用 PolyCollection 绘制 。 


from numpy.random import randint, rand, uniform 


def star_polygon(x, y, r, theta, n, s): 

angles = np.arange(0, 2*np.pi, 2*np.pi/2/n) + theta 
xs = r * np.cos(angles) 

ys = r * np.sin(angles) 

xs[1::2] *= s ! 
ys[1::2] *= s 
XS += X 

ys+=y 

return np.vstack([xs, ys]).T 


stars = [] 
for i in range(1666): 
star = star_polygon(randint(868)，randint(566)， 
uniform(5, 28), uniform(@, 2*np.pi), 
randint(3, 9), uniform(8.1, 06.7)) 
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stars.append(star) 


fig, ax = plt.subplots(figsize=(16，5)) 

polygons = mc.PolyCollection(stars，alpha=6.5，array=np.random.rand(len(stars))) 
ax.add_collection(polygons) 

ax.autoscale() 

ax.margins(6) 

ax.set_aspect("equal") 
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图 421 用 PolyCollection 绘制 大 量 多 边 形 


每 个 多 边 形 的 填充 颜色 由 颜色 映射 表决 定 ， 因 此 facecolors 的 长 度 与 多 边 形 的 个 数 相同 ， 
而 所 有 的 多 边 形 共用 边线 颜色 ， 所 以 edgecolors 的 长 度 为 1。PolyCollection 的 坐标 变换 方式 与 
LineCollection 相同 ， 就 不 再 重复 了 。 

print "length of facecolors:", len(polygons.get_facecolors()) 

print "length of edgecolors:", len(polygons.get_edgecolors()) 


length of facecolors: 1666 
length of edgecolors: 1 


3. 路 径 集 合 (PathCollection) 


scatter0 用 于 绘制 散 列 图 ， 它 返回 的 是 一 个 PathCollection 对 象 : 


N = 36 

np.random. seed(42) 

x = np.random.rand(N) 
y = np.random.rand(N) 


size = np.random.randint(20，66，N) 
value = np.random.rand(N) 


fig，ax = plt.subplots() 
pc = ax.scatter(x, y, s=size, c=value) 


pc 是 一 个 PathCollection 对 象 ， 它 的 facecolors 长 度 为 散 列 点 数 ， 颜 色 由 颜色 映射 表决 定 。 
edgecolors 的 长 度 为 1， 所 以 每 个 圆 形 的 边线 颜色 相同 。 

所 有 散 列 点 的 形状 都 是 相似 的 ， 因 此 paths 属性 的 长 度 为 1。 每 个 散 列 点 的 大 小 由 路 径 变 
换 transforms 决定 ， 它 是 一 个 形状 为 30, 3, 3) 的 三 维 数组 。 每 个 散 列 点 对 应 其 中 的 一 个 3X3 
的 变换 矩阵 。 下 面 是 下 标 为 0 的 散 列 点 的 路 径 变 换 对 象 ， 它 将 路 径 在 X 轴 和 立轴 方向 上 放大 
5.916 倍 ; 


print pc.get_transforms().shape 
print pc.get_transforms()[8] # 下 标 为 8 的 点 对 应 的 缩放 矩阵 


(30, 3, 3) 

[[ 5.91667978 0. 6. i 
[ 0. 5.91667978 0@. ] 
[ 8. 6. 1 放 


散 列 点 的 中 心 位 置 为 offsets 经 过 offset_transform 变换 之 后 的 坐标 。 由 下 面 的 结果 可 以 看 出 
offset_transform 变换 就 是 数据 坐标 变换 对 象 ， 它 将 数据 空间 中 的 坐标 变换 为 以 像素 为 单位 的 屏 
幕 坐标 ， 因 此 offsets 中 保存 的 就 是 数据 坐标 系 中 的 坐标 偏 移 量 。 


print pc.get_offsets()[8] # 下 标 为 @ 的 点 对 应 的 中 心 坐 标 

# 计 算 下 标 为 8 的 点 对 应 的 屏幕 坐标 

print pc.get_offset_transform() .transform(pc.get_offsets())[6] 
print pc.get_offset transform() is ax.transData 

[ 8.37454612 8.66754485] 

[ 212.66351729 134.74966826] 

True 


transforms 决定 散 列 点 的 大 小 ，offset_transform 和 offsets 决定 散 列 点 的 位 置 ， 因 此 主 变换 
transform 对 象 无 须 做 任何 变换 ， 它 是 一 个 恒 等 变换 。 

print pc.get_transform() 

IdentityTransform() 


于 offset_position 的 值 为 screen, 因此 坐标 变换 的 顺序 为 : 路 径 变换 、 主 变换 、 坐 标 偏 移 。 
路 径 变换 对 单位 圆 进行 缩放 ， 而 坐标 偏 移 则 把 圆 形 移动 到 指定 的 位 置 。 


pc.get_offset_position() 


U'screen’ 
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4. 椭圆 集合 (EllipseCollection) 


EllipseCollection 用 于 绘制 大 量 的 椭圆 ， 每 个 椭 
度 。 它 的 参数 如 下 : 
EllipseCollection(self, widths, heights, angles, units="points', **kwargs) 
其 中 widths、heights 和 angles 是 三 个 长 度 相同 的 数组 ， 分 别 为 每 个 椭圆 的 两 个 轴 的 长 度 以 
及 旋转 角度 。 而 units 参数 则 指定 widths 和 heights 的 单位 ， 有 如 下 选项 : 


'points' | 'inches' | 'dots' | "width' | ‘height’ | 'x | 'y' | xy 


都 可 以 拥有 独立 的 长 轴 和 短 轴 长 度 以 及 旋 


本 


转 


A 


其 中 points'、inches 和 dots 为 屏幕 坐标 系 中 的 长 度 ，dots 的 单位 为 像素 点 ， 而 points 和 "inches' 
则 根据 图 表 对 象 的 DPI 属性 按照 不 同 的 比例 变换 为 dots 单 位 。width' 和 eight 分 别 用 子 图 的 宽度 
或 高 度 作为 长 度 单位 ，x' 和 'y' 则 采用 数据 坐标 系 中 的 X 轴 或 Y 轴 长 度 ，'xy 表 示 采 用 数据 坐标 系 
中 的 X 轴 和 阅 轴 的 长 度 单位 。 如 果子 图 的 X 轴 和 Y 轴 的 长 度 单位 不 同 ， 椭 圆 呈 现 的 旋转 角度 
与 angles 指定 的 值 也 会 有 所 不 同 。 
下 面 的 程序 演示 了 unit 为 % 和 'xy' 的 区 别 ,效果 如 图 4-22 所 示 , 左 图 中 椭圆 的 长 度 单位 为 x'， 
宽度 为 X 轴 上 的 两 个 单位 距离 , 高 度 为 X 轴 上 的 一 个 单位 距离 。 由 于 高 度 和 宽度 采用 同样 的 单 
位 ， 因 此 椭圆 显示 的 角度 与 angles 指定 的 值 相同 。 当 unit 为 xy' 时 ， 椭 圆 的 高 度 采用 Y 轴 的 单位 
距离 , 由 于 立轴 的 单位 距离 的 像素 点 数 小 于 和 X 轴 的 单位 距离 , 因此 右 图 中 的 椭圆 比 左 图 的 更 扁 
- 些 ， 而 且 由 于 两 个 方向 上 的 长 度 单位 不 同 ， 椭 圆 呈 现 的 方向 也 与 angles 指定 的 值 不 同 。 如 果 
使 用 axes[].set_aspect(equal) 将 X 和 立轴 的 单位 长 度 设置 为 相同 ， 则 椭圆 的 角度 和 angles 指定 
的 角度 相同 ， 图 中 的 12 个 椭圆 将 均匀 地 分 布 在 一 个 正 圆 的 圆周 上 


区 


angles = np.linspace(8, 2*np.pi, 12, endpoint=False) 
offsets = np.c_[3*np.cos(angles), 2*np.sin(angles)] 
angles_deg = np.rad2deg(angles) 

widths = np.full_like(angles, 2) 

heights = np.full_like(angles, 1) 


fig，axes = plt.subplots(1, 2, figsize=(12, 4)) 


ec8 = mc.EllipseCollection(widths, heights, angles deg, units="x", array=angles, 
offsets=offsets，transOffset=axes[6].transData) 

axes[6].add_collection(ec6) 

axes[6].axis((-5，5，-5，5)) 


ecl = mc.EllipseCollection(widths, heights, angles deg, units="xy", array=angles, 
offsets=offsets，transOffset=axes[1].transData) 

axes[1].add_collection(ec1) 

axes[1].axis((-5，5，-5，5)) 

#axes[1].set_aspect("equal") 


| sb | | se 
mo 1 68 


二 2 0 2 4 了 2 0 2 4 


图 4-22 EllipseColletion 的 unit 参数 ，unit=Xx( 左 图 )、unit=xy( 右 图 ) 
5. 数据 空间 中 的 圆 形 集合 对 象 


仿照 图 4-22( 右 )， 可 以 使 用 EllipseCollection 绘制 以 数据 空间 中 的 长 度 为 半径 的 圆 的 集合 ， 
只 需要 将 widths 和 heights 设置 为 圆 形 的 直径 即 可 。 虽 然 在 collections 模块 中 还 有 一 个 


CircleCollection 类 ， 但 是 它 所 设置 的 圆 的 大 小 是 屏幕 空间 中 的 大 小 ， 无 法 控制 其 在 数据 空间 中 
的 大 小 。 & 
下 面 我 们 自 定义 一 个 能 绘制 数据 空间 中 国 形 集合 的 DataCircleCollection 类 : 站 

| 制 

from matplotlib.collections import CircleCollection, Collection 精 
from matplotlib.transforms import Affine2D 网 


class DataCircleCollection(CircleCollection): 


def set_ sizes(self, sizes): 
self._sizes = sizes 


def draw(self, render): 
ax = self.axes 
ms = np.zeros((len(self._sizes), 3, 3)) 
ms[:, 0, 08] = self._sizes 
ms[:, 1, 1] = self._sizes 
melss 2 2 
self. transforms = ms © 


m = ax.transData.get_affine().get_matrix().copy() 
m[:2, 2:] = 6 


self.set transform(Affine2D(m)) ©@ 


return Collection.draw(self, render) 


Python 科学 计算 (第 2 版 ) 


目 设置 每 个 圆 形 对 应 的 路 径 变换 ， 它 们 将 圆 形 缩放 指定 的 倍数 。 包 使 用 数据 坐标 转换 对 象 
; 的 缩放 系数 创建 一 个 新 的 二 维 仿 射 变换 对 象 ， 并 将 其 设置 为 主 变换 。 路 径 变 换 与 主 变 换 营 加 起 
: 来 ， 就 将 半径 为 1 的 单位 圆 缩放 为 数据 空间 中 半径 为 sizes 的 圆 形 。 
: 每 个 圆 形 对 应 的 路 径 变换 将 单位 圆 变换 为 数据 坐标 系 中 指定 大 小 的 圆 形 , 然后 通过 主 坐 标 
| 变换 将 数据 坐标 系 中 的 圆 形变 换 为 屏幕 坐标 系 中 的 大 小 ,最 后 再 由 坐标 偏 移 变 换 将 圆 形 放 到 指 
; 定 的 位 置 。 
下 面 用 DataCircleCollection 绘制 一 幅 漂亮 的 圆 形 拼图 ， 效果 如 图 4-23 所 示 。"venus-face.csv" 
中 的 每 一 行 有 6 个 数值 表示 一 个 圆 形 ， 每 个 数值 的 含义 为 : 圆 形 X 轴 坐标 、 圆 形 Y 轴 坐标 、 半 
径 、 红 色 、 绿 色 和 蓝 色 。 


data = np.loadtxt("venus-face.csv", delimiter=",") 
offsets = data[:, :2] 

sizes = data[:，2] * 1.65 

colors = data[:，3:] / 256.6 


fig，axe = plt.subplots(figsize=(8, 8)) 

axe.set_rasterized(True) 

cc = DataCircleCollection(sizes，facecolors=colors，edgecolors="w"，1linewidths=6.1， 
offsets=offsets，transOffset=axe.transData) 


axe.add_collection(cc) 
axe.axis((0, 512, 512, 8)) 
axe.axis("off") 
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图 423 使 用 DataCircleCollection 绘制 大 量 的 圆 形 


A 


本 1 


4.5 绘图 函数 简介 


与 本 节 内 容 对 应 的 Notebook 为 : 04-matplotlib/matplotlib-500-plot-functions.ipynb。 


介绍 如 何 使 用 matplotlib 绘制 一 些 常用 的 图 表 。matplotlib 的 每 个 绘图 函数 都 有 许多 关 


键 字 参 数 用 来 设置 图 表 的 各 种 属性 ， 由 于 篇 幅 有 限 ， 本 书 不 能 对 其 一 一 进行 介绍 。 一 般 来 说 ， 
如 果 读 者 需要 对 图 表 进 行 某 种 特殊 的 设置 ， 可 以 在 绘图 函数 的 说 明文 档 或 者 matploblib 的 演示 


页 面 中 找到 相关 的 说 明 。 
4.5.1 ”对 数 坐标 图 


前 面 介绍 过 如 何 使 用 plot0 绘 制 曲线 图 ， 所 绘制 图 表 的 X-Y 轴 坐 标 都 是 算术 坐标 。 下 面 我 


们 看 看 妇 


绘 甫 


数 坐 标 、 


何在 对 数 坐 标 系 中 绘图 。 
| 对 数 坐 标 图 的 函数 有 三 个 ;semilogx0、semilogy0、loglog0。 它 们 分 别 绘制 X 轴 为 对 
立轴 为 对 数 坐 标 以 及 两 个 轴 都 为 对 数 坐标 的 图 表 。 


下 面 的 程序 使 用 4 种 不 同 的 坐标 系 绘制 低 通 滤波 器 的 频率 响应 曲线 ， 结 果 如 图 4-24 所 示 。 


其 中 ,三 


:上 图 为 plot0 绘 制 的 算术 坐标 系 ， 右 上 图 为 semilogx0 绘 制 的 XX 轴 对 数 坐标 系 ， 左 下 图 


为 semilogy0 绘 制 的 Y 轴 对 数 坐标 系 ， 右 下 图 为 loglog0 绘 制 的 双 对 数 坐 标 系 。 使 用 双 对 数 坐标 
系 表示 的 频率 响应 曲线 通常 被 称 为 波 特 图 。 


w = np.linspace(86.1，16686，1666) 
p = np.abs(1/(1+8.1j*w)) # 计算 低 通 滤波 器 的 频率 响应 


fig, 


axes = plt.subplots(2, 2) 


functions = ("plot", "semilogx", "semilogy", "loglog") 


for ax, fname in zip(axes.ravel(), functions): 
func = getattr(ax, fname) 
func(w, p, linewidth=2) 
ax.set_ylim(6, 1.5) 
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图 4-24 低 通 滤波 器 的 频率 响应 : 算术 坐标 (左上 )、 和 X 轴 对 数 坐 
标 (右上 )、Y 轴 对 数 坐 标 (左下 )、 双 对 数 坐 标 (右上 ) 


4.5.2 ” 极 坐标 图 


生 极 坐标 系 是 和 笛 卡 尔 坐标 系 完全 不 同 的 坐标 系 , 极 坐标 系 中 的 点 由 一 个 夹 角 和 一 段 相对 中 
又 | 心 点 的 距离 表示 。 下 面 的 程序 绘制 极 坐标 图 ， 效 果 如 图 4.25 所 示 。 

FE 

| theta = np.arange(86，2#np.pi，6.62) 

精 ! 

plt.subplot(121, polar=True) © 

图 plt.plot(theta, 1.6*np.ones_like(theta), linewidth=2) @ 

表 plt.plot(3*theta, theta/3, "--", linewidth=2) 


plt.subplot(122, polar=True) 

plt.plot(theta, 1.4*np.cos(S5*theta), "--", linewidth=2) 
plt.plot(theta, 1.8*np.cos(4*theta), linewidth=2) 
plt.rgrids(np.arange(8.5, 2, 6.5), angle=45) © 
plt.thetagrids([6，45]) @ 


90° 


270° 


图 4.25 极 坐标 中 的 圆 、 螺 旋 线 和 玫瑰 线 


256 


@ 调 用 subplot0 创 建 子 图 时 通过 设置 polar 参数 为 Tme， 创 建 一 个 极 坐 标 子 图 。@ 然 后 调用 
plot0 在 极 坐标 子 图 中 绘图 。 也 可 以 使 用 polar0 直 接 创 建 极 坐标 子 图 并 在 其 中 绘制 曲线 。 


ergrids0 设 置 同心 圆 栅 格 的 半径 大 4 


\ 和 文字 标注 的 角度 。 因 此 右 图 中 的 虚线 圆圈 有 三 个 ， 


半径 分 别 为 0.5、1.0 和 1.5， 这 些 文字 沿 着 45” 线 排列 。@thetagrids0 设 置 放射 线 栅 格 的 角度 ， 
因此 右 图 中 只 有 两 条 放射 线 栅 格 线 ， 角 度 分 别 为 0” 和 45” 


4.5.3 柱状 图 
柱状 图 用 其 每 根 柱子 的 长 度 表 示 值 


的 大 小 ， 它 们 通常 用 来 比较 两 组 或 多 组 值 。 字 


从 文件 中 读 入 中 国人 口 的 年 龄 的 分 布 数据 (人 口 分 布 数据 由 维基 百科 提供 , 仅 供 参 考 , 不 保证 1 


确 性 )， 并 使 用 柱状 图 比较 男性 和 女性 的 4 


年 龄 分 布 ， 效 果 如 图 4-26 所 示 。 


data = np.loadtxt("china_population.txt") 
width = (data[1,6] - data[8,86])*0.4 © 


plt.figure(figsize=(8, 4)) 


c1，c2 = plt.rcParams['axes.color_cycle'][:2] 
plt.bar(data[:,8]-width, data[:,1]/1e7, width, color=c1, label=u" 男 ") @ 
plt.bar(data[:,8], data[:,2]/1e7, width, color=c2, label=u" 女 ") © 


plt.xlim(-width，166) 
plt.xlabel(u" 年 龄 ") 
plt.ylabel(u" 人 口 ( 千 万 )") 
plt.legend() 
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人 口 ( 千 万 ) 
A 


3 


图 4-26 中 


读 入 的 数据 中 ， 第 一 列 为 年 龄 ， 


年 龄 


国 男 女人 口 的 年 龄 分 布 图 


它 将 作为 柱状 图 的 横 坐 标 。@ 首 先 计算 柱状 图 中 每 根 柱子 


的 宽度 ， 因 为 要 在 每 0 上 给 制 现 根 柱子 ， 因此 柱子 的 宽度 应 该 小 于 年 龄 段 的 二 分 之 一 。 


这 里 以 年 龄 段 的 0.4 倍 作为 柱子 的 宽度 。 


多 


出 只 


bu 
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@ 调 用 bar0 绘 制 男 性 人 口 分 布 的 柱状 图 。 它 的 第 一 个 参数 为 每 根 柱子 的 左边 缘 的 横 坐 标 ， 
为 了 让 男性 和 女性 的 柱子 以 年 龄 刻度 为 中 心 ， 这 里 让 每 根 柱子 左 侧 的 横 坐 标 为 “年 龄 减 去 柱子 
的 宽度 ”。bar0 的 第 二 个 参数 为 每 根 柱子 的 高 度 ， 第 三 个 参数 指定 所 有 柱子 的 宽度 。 当 第 三 个 
参数 为 序列 时 ， 可 以 为 每 根 柱子 指定 宽度 。 
绘制 女性 人 口 分 布 的 柱状 图 ， 这 里 以 年 龄 为 柱子 的 左边 缘 横 坐标 ， 因此 女性 和 男性 的 人 
口 分 布 图 以 年 龄 刻度 为 中 心 。 由 于 bar0 不 自动 修改 颜色 ， 因 此 程序 中 通过 color 参数 设置 两 个 
柱状 图 的 颜色 。 


4.5.4” 散 列 图 


使 用 plot0 绘 图 时 ， 如 果 指 定 样式 参数 为 只 绘制 数据 点 ， 那 么 所 绘制 的 就 是 一 幅 散 列 图 。 
例如 ， 


plt.plot(np.random.random(160), np.random.random(160), "0o") 


但 是 这 种 方法 所 绘制 的 点 无 法 单独 指定 颜色 和 大 小 。scatter0 所 绘制 的 散 列 图 可 以 指定 每 个 
点 的 颜色 和 大 小 。 下 面 的 程序 演示 了 scatter0 的 用 法 ， 效 果 如 图 4-27 所 示 。 


plt.figure(figsize=(8, 4)) 

x = np.random.random(166) 

y = np.random.random(166) 

plt.scatter(x, y, s=x*10600, c=y, marker=(5, 1), 
alpha=0.8, lw=2, facecolors="none") 

plt.xlim(8@, 1) 

plt.ylim(86，1) 


图 427 可 指定 点 的 颜色 和 大 小 的 散 列 


scatter0 的 前 两 个 参数 是 两 个 数组 ， 分 别 指定 每 个 点 的 X 轴 和 YY 轴 的 坐标 。s 参 数 指定 点 的 
大 小 ， 其 值 和 点 的 面积 成 正比 ， 可 以 是 单个 数值 或 数组 。 


c 参数 指定 每 个 点 的 颜色 ， 也 可 以 是 数值 或 数组 。 这 里 使 用 一 维 数组 为 每 个 点 指定 了 一 个 
数值 。 通 过 颜色 映射 表 ， 每 个 数值 都 会 与 一 个 颜色 相对 应 。 默 认 的 颜色 映射 表 中 蓝 色 与 最 小 值 
红色 与 最 大 值 对 应 。 当 c 参 数 是 形状 为 ON,3) 或 (N, 4) 的 二 维 数 组 时 ， 则 直接 表示 每 个 点 的 
RGB 颜色 。 
marker 参数 设置 点 的 形状 ,可 以 是 一 个 表示 形状 的 字符 串 ， 或 是 表示 多 边 形 的 两 个 元 素 的 
元 组 , 第 一 个 元 素 表示 多 边 形 的 边 数 , 第 二 个 元 素 表示 多 边 形 的 样式 , 取 值 范围 为 0、1、2、3。 
0 表示 多 边 形 ，1 表示 星 形 ，2 表示 放射 形 ，3 表示 忽略 边 数 显示 为 圆 形 。 
最 后 , 通过 alpha 参数 设置 点 的 透明 度 , lw 参数 设置 线 宽 , 它 是 linewidth 的 缩写 。facecolors 
参数 为 "none" 表 示 散 列 点 没有 填充 色 。 


4.5.5 图像 


imread0 和 imshow0 提 供 了 简单 的 图 像 载 入 和 显示 功能 。imread0 可 以 从 图 像 文件 读 入 数据 ， 
得 到 一 个 表示 图 像 的 NumPy 数组 。 它 的 第 一 个 参数 是 文件 名 或 文件 对 象 , format 参 数 指定 图 像 
类 型 ， 如 果 省 略 则 由 文件 的 扩展 名 决定 图 像 类 型 。 对 于 灰 度 图 像 ， 它 返回 一 个 形状 为 M, NN) 的 
数组 ; 对 于 彩色 图 像 , 它 返 回 形 状 为 (M,N, O 〇 的 数组 。 其 中 M 为 图 像 的 高 度 , N 为 图 像 的 宽度 ， 
C 为 3 或 4， 表 示 图 像 的 通道 数 。 下 面 的 程序 从 lenajpg 中 读 入 图 像 数 据 ， 效 果 如 图 4-28 所 示 。 
所 得 到 的 数组 img 是 一 个 形状 为 G93, 512, 3) 的 单字 节 无 符号 整数 数组 。 这 是 因为 通常 所 使 用 的 
图 像 采 用 单字 节 分 别 保存 每 个 像素 的 红 、 绿 、 蓝 三 个 通道 的 分 量 ; 

img = plt.imread("lena.jpg") 

print img.shape, img.dtype 

(393, 512, 3) uint8 


下 面 使 用 imshow0 显 示 img 所 表示 的 图 像 : 

@imshow0 可 以 用 来 显示 imread0 所 返回 的 数组 。 如 果 数 组 是 表示 多 通道 图 像 的 三 维 数 组 ， 
则 每 个 像素 的 颜色 由 各 个 通道 的 值 决定 。 

@imshow0 所 绘制 图 表 的 Y 轴 的 正方 向 是 从 上 往 下 的 。 如 果 设 置 imshow0 的 origin 参数 为 
"lower"， 则 所 显示 图 表 的 原点 在 左下 角 ， 但 是 整个 图 像 就 上 下 颠倒 了 。 

人 @@ 如 果 三 维 数组 的 元 素 类 型 为 浮 点 数 , 则 元 素 值 的 取 值 范围 为 0.0 到 1.0, 与 颜色 值 0 到 255 
对 应 。 超 过 这 个 范围 可 能 会 出 现 颜色 异常 的 像素 。 下 面 的 例子 将 数组 img 转换 为 浮 点 数组 并 
imshow0 进 行 显示 ， 由 于 数值 范围 超过 了 0.0~1.0， 因 此 颜色 显示 异常 。 

@ 而 取 值 在 0.0~1.0 的 浮 点 数组 和 原始 图 像 完 全 相 

人 @ 使 用 dlip0 将 超出 范围 的 值 限制 在 取 值 范围 之 内 ， 可 以 使 整个 图 像 变 亮 。 

@ 如 果 imshow0 的 参数 是 二 维 数组 ， 则 使 用 颜色 映射 表决 定 每 个 像素 的 颜色 。 这 里 显示 图 
像 中 的 红色 通道 ， 它 是 一 个 二 维 数组 。 其 显示 效果 比较 吓人 ， 因 为 默认 的 图 像 映射 将 最 小 值 映 
射 为 蓝 色 、 将 最 大 值 映射 为 红色 。 可 以 使 用 colorbar0 将 颜色 映射 表 在 图 表 中 显示 出 来 。 

@ 通 过 imshow0 的 cmap 参数 可 以 修改 显示 图 像 时 所 采用 的 颜色 映射 表 ， 使 用 名 为 copper 
的 颜色 映射 表 显 示 图 像 的 红色 通道 。 


可 
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img = plt.imread("lena.jpg") 
fig, axes = plt.subplots(2, 4, figsize=(11, 4)) 
fig.subplots_adjust(6, 6, 1, 1, 80.65, 8.65) 


axes = axes.ravel() 


axes[6].imshow(img) 0 
axes[1].imshow(img, origin="lower") © 
axes[2].imshow(img * 1.9) © 
axes[3].imshow(img / 255.6) 9 
axes[4].imshow(np.clip(img / 280.06, 8, 1)) © 


axe_img = axes[5].imshow(img[:,:, 8]) © 
plt.colorbar(axe_img, ax=axes[5]) 


axe_img = axes[6].imshow(img[:, :, 8], cmap="copper") @ 
plt.colorbar(axe_img, ax=axes[6]) 


for ax in axes: 
ax.set_axis off() 


4 


图 428 用 imread0 和 imshow0 显 示 图 像 


颜色 映射 表 是 一 个 ColorMap 对 象 ，matplotlib 中 已 经 预先 定义 了 很 多 颜色 映射 表 ， 可 以 通 


过 下 面 的 语句 找到 这 些 颜色 映射 表 的 名 字 : 


import matplotlib.cm as cm 
cm._cmapnames[:5] 


['Spectral'’, 'copper', 'RdYlGn', 'Set2', 'summer'] 


使 用 imshow0 可 以 显示 任意 的 二 维 数据 , 例如 下 面 的 程序 使 


f(x,y) = xe* -六 ， 效 果 如 图 4-29 所 示 。 


图 像 直 观 地 显示 了 二 元 函数 


y, x = np.ogrid[-2:2:266j，-2:2:266j] 
Z=Xx*#np.exp( - x**2 - y#++2) @ 


extent = [np.min(x), np.max(x), np.min(y), np.max(y)] © 


plt.figure(figsize=(16,3)) 

plt.subplot(121) 

plt.imshow(z, extent=extent, origin="lower") © 
plt.colorbar() 

plt.subplot(122) 

plt.imshow(z, extent=extent, cmap=cm.gray, origin="lower") 
plt.colorbar() 
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图 4-29 使 用 imshow0 可 视 化 二 元 函数 


. 0.4 
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| 0.0 
h -01 
所 -02 
9 -03 
i -0.4 
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@ 首 先 通 过 数组 的 广播 功能 计算 出 表示 函数 值 的 二 维 数组 z， 注 意 它 的 第 0 轴 表 示 Y 轴 、 


第 1 轴 表 示 X 轴 。@ 然 后 将 X、Y 轴 的 取 值 范 围 保存 到 extent 列表 中 。 


目 将 extent 列表 传递 给 


imshow0 的 extent 参数， 这 样 图 表 的 X、Y 轴 的 刻度 标签 将 使 用 extent 列表 指定 的 范围 。 


4.5.6 ”等 值 线 图 
还 可 以 使 用 等 值 线 图 表示 二 元 函数 。 所 谓 等 值 线 ， 是 指 由 函数 值 相 等 的 各 点 连 成 的 平滑 曲 
线 。 等 值 线 可 以 直观 地 表示 二 元 函数 值 的 变化 趋势 ， 例 如 等 值 线 密集 的 地 方 表示 函数 值 在 此 处 


的 变化 较 大 。matplotlib 中 可 以 使 用 contour0 和 contourf0 描 绘 等 


y，x = np.ogrid[-2:2:266j，-3:3:366j] @ 
z= XxX * np.exp( - Xx**2 - y**2) 


extent = [np.min(x), np.max(x), np.min(y), np.max(y)] 


plt.figure(figsize=(10,4)) 
plt.subplot(121) 


线 ， 它 们 的 区 别 是 contourf0 所 
得 到 的 是 带 填充 效果 的 等 值 线 。 下 面 的 程序 演示 了 这 两 个 函数 的 用 法 ， 


效果 如 图 4-30 所 示 : 
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cs = plt.contour(z, 10, extent=extent) ©@ 
plt.clabel(cs) © 

plt.subplot(122) 

plt.contourf(x.reshape(-1), y.reshape(-1), z, 20) @ 


己 

S 
1 
0 


图 4-30 用 contour( 左 ) 和 contourf( 右 ) 描 绘 等 值 线 图 


1 2 3 只 “~h 0 1 3 


@ 为 了 更 清楚 地 区 分 X 轴 和 YY 轴 , 这 里 让 它们 的 取 值 范围 和 等 分 次 数 均 不 相同 。 这 样 所 得 
到 的 数组 z 的 形状 为 200,300)， 它 的 第 0 轴 对 应 Y 轴 ， 第 1 轴 对 应 X 轴 。 

四 调用 contour0 绘 制 数组 z 的 等 值 线 图 ， 第 二 个 参数 为 10 表示 将 整个 函数 的 取 值 范围 等 分 
为 10 个 区 间 ， 即 其 所 显示 的 等 值 线 图 中 将 有 9 条 等 值 线 。 和 imshow0 一 样 ， 可 以 使 用 extent 参 
数 指定 等 值 线 图 的 X 轴 和 立轴 的 数据 范围 。@contour0 所 返回 的 是 一 个 QuadContourSet 对 象 ， 
将 它 传递 给 clabel0， 为 其 中 的 等 值 线 标 上 对 应 的 值 。 

四 调用 contourf0 绘 制 带 填充 效果 的 等 值 线 图 。 这 里 演示 了 男 一 种 设置 X、Y 轴 取 值 范 围 的 
方法 。 它 的 前 两 个 参数 分 别 是 计算 数组 z 时 所 使 用 的 X 轴 和 YY 轴 上 的 取样 点 ,这 两 个 数组 必须 
是 一 维 数组 或 是 形状 与 数组 z 相 同 的 数组 。 


如 果 需 要 对 散 列 点 数据 绘制 等 值 线 图 ， 可 以 先 使 用 scipyinterpolate 模块 中 提供 的 插值 
图 函数 将 散 列 点 数据 插值 为 网 格 数据 。 


还 可 以 使 用 等 值 线 绘制 隐 函 数 曲线 。 所 谓 隐 函 数 ， 是 指 在 一 个 方程 中 ， 若 令 x 在 某 一 区 间 
内 取 任 意 值 时 总 有 相应 的 y 满足 此 方程 ， 则 可 以 说 方程 在 该 区 间 上 确定 了 x 的 隐 函 数 y， 如 隐 
函数 x? + y2 一 1 = 0 表示 一 个 单位 圆 。 
显然 无 法 像 绘 制 一 般 函 数 那样 ， 先 创建 一 个 等 差 数组 表示 变量 x 的 取 值 点 ， 然 后 计算 出 数 
组 中 每 个 x 所 对 应 的 y 值 。 可 以 使 用 等 值 线 解决 这 个 问题 ， 显 然 隐 函 数 的 曲线 就 是 值 等 于 0 的 
那 条 等 值 线 。 下 面 的 程序 绘制 函数 : 


必 


f(xy) = +y) 一 G2 一 Y2)? 
在 f(x,y) = 0 和 f(x,y) 一 0.1 = 0 时 的 曲线 ， 效 果 如 图 431( 左 ) 所 示 。 


y, x = np.ogrid[-1.5:1.5:266j，-1.5:1.5:266j] 
fF = (X**2 + y**2)**4 - (X**2 - y**2)**2 


plt.figure(figsize=(9, 4)) 
plt.subplot(121) 
extent = [np.min(x), np.max(x), np.min(y), np.max(y)] 
cs = plt.contour(f, extent=extent, levels=[6, 8.1], 0 
colors=["b", "r"], linestyles=["solid", "dashed"], linewidths=[2, 2]) 


plt.subplot(122) 
for c in cs.collections: @ 
data = c.get_paths()[6].vertices 
plt.plot(data[:,8], data[:,1], 
color=c.get_color()[8], linewidth=c.get_ linewidth()[8]) 


@ 在 调用 contour0 绘 制 等 值 线 时 ， 可 以 通过 levels 参数 指定 等 值 线 所 对 应 的 函数 值 ， 这 里 
设置 levels 参数 为 [0, 0.1]， 因 此 最 终 将 绘制 两 条 等 值 线 。 通 过 colors、linestyles、linewidths 等 参 
数 可 以 分 别 指定 每 条 等 值 线 的 颜色 、 线 型 以 及 线 宽 。 

仔细 观察 图 4-31( 左 ) 会 发 现 , 表示 隐 函 数 f(x y) = 0 的 蓝 色 实 线 并 不 是 完全 连续 的 , 在 图 的 
中 间 部 分 它 由 许多 孤立 的 小 段 构成 。 因 为 等 值 线 在 原点 附近 无 限 靠 近 ， 所 以 无 论 对 函数 f 的 取 
值 空间 如 何 进 行 细 分 ， 总 是 会 有 无 法 分 开 的 地 方 ， 最 终 造成 了 图 中 的 那些 孤立 的 细小 区 域 ， 而 
表示 隐 函 数 f(x,y) 一 0.1 = 0 的 红色 虚线 则 是 闭合 且 连 续 的 。 

@ 从 等 值 线 集合 cs 中 找到 表示 等 值 线 的 路 径 , 并 使 用 plot0 将 其 绘制 出 来 ,效果 如 图 4-31( 右 ) 
所 示 。 


1.5 15 
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图 431 使 用 等 值 线 绘制 隐 函 数 曲 线 ( 左 )， 获 取 等 值 线 数据 并 绘图 ( 右 ) 
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contour0 返 回 一 个 QuadContourSet 对 象 ， 其 collections 属性 是 一 个 等 值 线 列 表 ， 每 条 等 值 线 
个 LineCollection 对 象 表示 : 


print cs 

cs.collections 

<matplotlib.contour.QuadContourSet instance at 6x657EFC16> 
<a list of 2 mcoll.LineCollection objects> 


每 个 LineCollection 对 象 都 有 它 自 己 的 颜色 、 线 型 、 线 宽 等 属性 ， 注 意 这 些 属 性 所 获得 结果 
的 外 面 还 有 一 层 包装 ， 要 获得 其 第 0 个 元 素 才 是 真正 的 配置 ; 


print cs.collections[8].get_color()[8] 
print cs.collections[8].get_linewidth()[8] 
[0 Ot le] 

2 


在 前 面 的 章节 介绍 过 LineCollection 对 象 是 一 组 曲线 的 集合 , 因此 它 可 以 表示 蓝 色 实 线 那 样 
由 多 条 线 构成 的 等 值 线 。 它 的 get_paths0 方 法 获得 构成 等 值 线 的 所 有 路 径 ， 本 例 中 蓝 色 实 线 所 
表示 的 等 值 线 由 和 2 条 路 径 构 成 : 


len(cs.collections[8].get_paths()) 
42 


路 径 是 一 个 Path 对 象 ， 通 过 它 的 vertices 属性 可 以 获得 路 径 上 所 有 点 的 坐标 ; 


path = cs.collections[6].get_paths()[8] 
path.vertices 
array([[-6.68291457，-6.98938936]， 
[-8.69839269，-68.98743719]， 
[-8.69798995，-8.98513674]， 
Si 
[-8.65276382，-8.99548781]， 
[-8.6678392 ，-8.99273987]， 
[-8.68291457，-6.98938936]]) 


4.5.7 四边形 网 格 


pcolormesh(X, Y, O 〇 绘制 由 X、Y 和 C 三 个 数组 定义 的 四 边 形 网 格 ,这 三 个 数组 是 二 维 数组 ， 
XX 和 YY 的 形状 相同 ，C 的 形状 可 以 和 X、 立 相同 ， 也 可 以 比 它们 少 一 行 一 列 。 每 个 四 边 形 的 4 
个 顶点 的 X 轴 坐标 由 XX 中 上 下 左右 相 邻 的 4 个 元 素 决定 ,Y 轴 坐标 由 Y 中 对 应 的 4 个 元 素 决定 。 
1 边 形 的 颜色 由 C 中 对 应 的 元 素 以 及 颜色 映射 表决 定 。 
在 下 面 的 例子 中 , X 和 YY 的 形状 都 是 (2,3)， 其 中 有 两 组 上 下 左右 相 邻 的 4 个 元 素 ， 定义 两 
个 四 边 形 的 4 个 顶点 : 


第 一 个 四 边 形 的 顶点 第 二 个 四 边 形 的 顶点 
(0, 8), (1, 8.2) (1, 8.2), (2, ©) 
(0, 1), (1, 08.8) (1, 8.8), (2, 1) 


每 个 四 边 形 的 填充 颜色 与 忆 中 的 一 个 元 素 对 应 ; 


X = np.array([[6，1，2]， 
[e, 1, 2]]) 
Y = np.array([[98, 8.2, 8], 
[15 .0:8> 1]0) 
Z = np.array([[8.5, 8.8]]) 


下 面 将 X 和 YY 平坦 化 之 后 用 plot0 绘 制 出 这 些 顶 点 的 坐标 , 然后 调用 pcolormesh0 绘 制 这 两 
个 四 边 形 。 与 左边 的 四 边 形 对 应 的 颜色 映射 值 为 0.5, 与 右边 的 四 边 形 对 应 的 颜色 映射 值 为 0.8， 
因此 一 个 显示 为 蓝 色 ， 男 一 个 显示 为 红色 。 


plt.plot(X.ravel(), Y.ravel(), "ko") 时 
plt.pcolormesh(X，Y，Z) a 
j 5 
plt.margins(8.1) 维 
出 
精 
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图 4.32 演示 pcolommesh0) 绘 制 的 四 边 形 及 其 填充 颜色 


在 下 面 的 例子 中 ， 使 用 pcolormesh0 绘 制 复数 平面 上 的 坐标 变换 。 在 图 4-33 中 ， 左 侧 的 图 


表 显示 s 平 面 上 的 矩形 区 域 ， 右 侧 的 图 表 显 示 通 过 公式 z = 至 坐标 变换 之 后 的 网 格 ， 左 侧 中 的 
和 矩形 被 变换 成 右 侧 同 颜色 的 四 边 形 。 由 于 axesC2] 和 axes[3] 中 的 网 格 由 近 4 万 个 四 边 形 组 成 ， 为 
了 在 输出 SVG 图 像 时 提高 绘图 速度 ， 这 里 将 rasterized 参数 设置 为 True， 这 些 四 边 形 将 作为 一 
幅 点 阵 图 像 输出 到 SVG 图 像 中 。 


def make_mesh(n): 
x, y = np.mgrid[-160:0:n*1j, -5:5:n*1j] 
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Ss = X+1j*xy 
(2+ 5) 7 (2 5) 


return s, z 


2 


fig, axes = 
axes = axes.ravel() 
in axes: 


.Set_aspect("equal") 


for ax 
ax 


s1, z1 = make_mesh(16) 
Ss2，z2 = make_mesh(266) 
axes[8] .pcolormesh(s1.real, 
axes[1] .pcolormesh(z1.real, 
axes[2].pcolormesh(s2.real, 
axes[3] .pcolormesh(z2.real, 


s1.imag, 
z1.imag, 
5s2.imag, 
z2.imag, 


plt.subplots(2, 2, figsize=(8, 8)) 


np.abs(s1)) 
np.abs(s1)) 
np.abs(s2), rasterized=True) 
np.abs(s2), rasterized=True) 
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图 433 使 用 pcolommesh0) 绘 制 复数 平面 上 的 坐标 变换 


使 用 pcolormesh0 绘 制 网 格 ， 下 面 的 例子 使 用 mgrid[ 创 建 极 坐标 中 的 等 


还 可 以 在 极 坐标 中 


i 


间隔 网 格 ， 然 后 在 projection 为 polar 的 子 图 中 绘制 这 个 网 格 : 


def func(theta, r): 
y = theta * np.sin(r) 
return np.sqrt(y*y) 


T, R= np.mgrid[6:2*np.pi:366j，6:16:166j] 
Z = func(T, R) 


ax=plt.subplot(111, projection="polar", aspect=1.) 
ax.pcolormesh(T, R, Z, rasterized=True) 
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图 4-34 使 用 pcolormesh0 绘 制 极 坐标 中 的 网 格 


4.5.8 三 角 网 格 


拟 。 


在 工业 工程 设计 与 分 析 中 ， 经 常 将 分 析 对 象 使 用 三 角 网 格 离散 化 ， 然 后 用 有 限 元 法 进行 模 
在 matplotlib 中 提供 了 下 面 的 三 角 网 格 绘制 函数 : 

e triplot0: 绘制 三 角 网 格 的 边线 。 
e tripcolor0: 与 pcolormesh0 类 似 ， 绘 制 填充 颜色 的 三 角 网 格 。 

e@ tricontour0 和 tricontourf0: 绘制 三 角 网 格 的 等 高 线 。 

diffusion.txt 是 使 用 FiPy 对 二 维稳 态 热传导 问题 进行 有 限 元 模拟 的 结果 。 该 文件 分 为 三 个 


e 以 #points 开头 的 部 分 是 一 个 形状 为 (N_points, 2) 的 数组 ， 保 存 N_points 个 点 的 坐标 。 

e 以 #triangles 开头 的 部 分 是 一 个 形状 为 (N_triangles, 3) 的 数组 , 保存 每 个 三 角形 三 个 顶点 在 
points 数组 中 的 下 标 。 

@ 以 #values 开头 的 部 分 是 一 个 形状 为 (N_triangles, 1) 的 数组 ， 保 存 每 个 三 角形 对 应 的 
温度 。 

下 面 的 程序 将 这 些 数 据 读 入 data 字 典 : 
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with open("diffusion.txt") as f: 
data = {"points":[], "triangles":[], "values":[]} 


values = None 
for line in f: 
line = line.strip() 
if not line: 
continue 
if line.startswith("#"): 
values = data[line 
continue 


[1:]] 


values.append([float(s) for s in line.split()]) 


data = {key:np.array(data[key]) for key in data} 


然后 就 可 以 调用 trip*0， 用 三 朋 


形 网 格 显示 目标 区 域 的 温度 ， 结 果 如 图 4-35 所 示 。 


@tripcolor0 的 参数 从 左 到 右 分 别 为 各 点 的 XX 轴 坐标 、Y 轴 坐标 、 三 角形 顶点 下 标 、 标 量 交 
组 。 标 量 数组 中 的 每 个 值 可 以 与 每 个 顶点 对 应 , 也 可 以 与 每 个 三 角形 对 应 。 在 本 例 中 由 于 values 


的 长 度 与 iangles 的 第 0 轴 长 度 相 同 ， 因 此 每 个 值 与 三 角形 相对 应 。 若 标量 数组 的 长 度 与 顶点 


数 相 同 ， 则 每 个 三 角形 对 应 的 值 由 
@ 调 用 triplot0 绘 制 所 有 三 角形 
与 三 角形 顶点 相对 应 ， 而 本 例 中 标 


的 边线 。 罩 调用 tricontour0 绘 制 等 高 线 。 由 于 要 求 标 量 数组 
量 数组 与 三 角形 对 应 ， 因 此 先 计算 每 个 三 角形 的 重心 坐标 


Xc 和 Yc， 这 样 values 中 的 每 个 值 就 可 以 与 每 个 三 角形 的 重心 对 应 。 在 调用 tricontour0 时 没有 传 


递 三 角形 项 点 下 标 信息 , 这 时 会 调 忆 


X，Y = data["points"].T 


matplotlib 自 带 的 三 角 化 算法 计算 出 每 个 三 角形 对 应 的 顶点 。 


triangles = data["triangles"].astype(int) 


values = data["values"].squeeze() 


fig, ax = plt.subplots(figsize=(12, 4.5)) 


ax.set_aspect("equal") 


mapper = ax.tripcolor(X, Y, triangles, values, cmap="gray") © 


plt.colorbar(mapper，1label=u" 温 


[ 度 ") 


plt.triplot(X，Y，triangles，lw=6.5，alpha=6.3，color="k") © 


Xc = X[triangles].mean(axis=1) 
Yc = Y[triangles].mean(axis=1) 
plt.tricontour(Xc, Yc, values, 


10) © 


图 4-35 使 用 tipcolor0 和 tricontour0 绘 制 三 角 网 格 和 等 值 线 


4.5.9 箭头 图 


使 用 quiver0 可 以 用 大 量 的 箭头 表示 矢量 场 。 下 面 的 程序 显示 fx,y) = xe* -的 梯度 场 ， 


结果 如 图 4-36 所 示 。vec_field(f, x,y) 近 似 计算 函数 f 在 x 和 y 处 的 偏 导数 。 
quiver0 的 前 5 个 参数 中 ，X、YY 是 箭头 起 点 的 X 轴 和 立轴 坐标 ，U、YV 
的 矢量 ，C 是 箭头 对 应 的 值 。 


def f(x, y): 
return x * np.exp(- x**2 - y**2) 


def vec field(f, x, y, dx=1le-6, dy=1e-6): 


X2 = X + dx 
y2 =y+dy 
v= f(x, y) 


vx = (f(x2, y) - v) / dx 
v= (f(x, y2) - v) /dy 
return vx, vy 


xX, Y = np.mgrid[-2:2:26j，-2:2:26j] 
C = f(X, Y) 

U, V = vec field(f, xX, Y) 
plt.quiver(X, Y, U, Vv, C) 
plt.colorbar(); 

plt.gca().set aspect("equal") 


| 
丐 于 


头 方向 和 大 小 
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图 4.36 用 quiver0 绘 制 矢量 场 


此 外 ，quiver0 还 提供 许多 参数 来 配置 箭头 的 大 小 和 方向 : 

e 箭头 的 长 度 由 scale 和 scale_units 决定 。 其 中 scale 为 数值 ， 表 示 箭 头 的 缩放 尺度 ， 而 
scale_units 为 第 头 的 长 度 单位 ， 可 选单 位 有 'width'、'height、'dots'、'inches'、X'、'y'、xy 
等 。 其 中 "width'、bheight 为 子 图 的 宽 和 高 ，dots 和 inches' 以 点 和 英寸 为 单位 ，X、Y、xXy' 
则 以 数据 坐标 系 的 X 轴 、Y 轴 或 单位 矩形 的 对 角 线 为 单位 。 箭 头 的 长 度 按 照 “UV 矢量 
的 长 度 * 箭头 的 长 度 单 位 /缩放 尺度 ”计算 。 例 如 ， 如 果 scale 为 2，scale_units 为 x'， 而 
UV 矢量 的 长 度 为 3， 则 对 应 的 箭头 的 长 度 为 15 个 X 轴 的 单位 长 度 。 

e@ width、headwidth、headlength 和 headaxislength 等 参数 决定 箭头 的 杆 部 分 粗细 、 箭 头 部 分 
的 大 小 以 及 长 度 ， 而 units 参数 决定 这 些 参 数 的 单位 ， 可 选 值 与 scale_units 相同 。 这 些 
参数 的 含义 如 图 4.37 所 示 。 


< 箭头 全 长 > 


~ headlength > 


A 


width DS 

和 一 一 = 
| 一 tail middle 一 和 
A 


headwidth 


me—headaxislength—> 


图 4-37 quiver 箭 头 的 各 个 参数 的 含义 


@ ”pivot 参数 决定 箭头 旋转 的 中 心 ， 可 以 为 tail'、middle、'tip 等 值 ， 在 图 4-37 中 使 用 灰色 


pm| 


e@ angles 参数 决定 箭头 的 方向 。 正 方形 可 能 由 于 X 轴 有 


的 缩放 尺度 不 同 而 显示 为 


方形 ， 因 此 方向 有 两 种 计算 方式 :mv 和 'xy'。 其 中 "uv' 只 采 


U 和 V 的 值 计算 方向 ， 


此 车 UU 和 V 的 值 相同 ， 则 方向 为 4 度 ; 而 xy' 在 使 用 口 入 


轴 的 缩放 尺度 。 


下 面 通过 两 个 例子 帮助 读者 理解 这 些 参数 的 用 法 , 如 图 4-38 所 示 。 首先 绘制 了 一 条 参数 
线 ， 然 后 沿 着 该 曲线 绘制 了 40 个 等 分 曲线 的 箭头 ， 箭 头 的 方向 表示 箭头 处 曲线 的 切线 方向 ， 
颜色 表示 箭头 所 在 处 参数 的 大 小 。 计 算 部 分 留 给 读者 自行 分 析 ， 下 面 仔 细 分 析 这 些 参数 是 如 人 


决定 箭头 的 大 小 和 方向 的 。 


箭头 的 长 度 和 其 他 尺寸 的 单位 由 scale_units 和 units 决定 ， 在 本 例 中 均 为 dots'， 即 以 像素 点 


为 单位 。dx 和 dy 为 描述 箭头 的 矢量 ， 长 度 为 1， 将 scale 参数 


V 计算 角度 时 考虑 X 轴 和 


四 让 


为 1.0/arrow_size， 这 样 所 有 


箭头 的 长 度 均 为 arow_size 个 像素 点 。 第 杆 的 宽度 由 width 参数 指定 ,本 例 中 的 宽度 为 1 个 像素 。 
而 headwidth、headlength 和 headaxislength 等 参数 决定 箭头 部 分 的 宽度 、 长 度 以 及 箭头 与 箭 杆 接 
触 部 分 的 长 度 ， 这 些 参数 为 对 应 长 度 与 箭 杆 宽度 的 比例 系数 。 在 本 例 中 ， 由 于 箭 杆 宽度 为 1 个 
像素 ， 因 此 箭头 宽度 为 arow_size * 05 个 像素 ， 而 箭头 部 分 的 长 度 和 箭头 的 长 度 相同 ， 因 此 图 


中 的 箭头 没有 箭 杆 部 分 。 


能 与 曲 引 


Xr 


的 切线 方向 相同 。 


n = 46 

arrow_size = 16 

t = np.linspace(86，1，1666) 
x = np.sin(3*2*np.pi*t) 

y = np.cos(5*2*np.pi*t) 
line, = plt.plot(x, y, lw=1) 


lengths = np.cumsum(np.hypot(np.diff(x), np.diff(y))) 
length = lengths[-1] 


arrow_locations = np.linspace(8, length, n, endpoint=False) 


index = np.searchsorted(lengths, arrow_locations) 

dx = x[index + 1] - x[index] 

dy = y[index + 1] - y[index] 

ds = np.hypot(dx, dy) 

dx /= ,ds 

dy /= ds 

plt.quiver(x[index], y[index], dx, dy, t[index], 
units="dots", scale units="dots", 


angles="xy", scale=1.8/arrow_size, pivot="middle", 


edgecolors="black", linewidths=1, 
width=1, headwidth=arrow_size*8.5, 


headlength=arrow_size, headaxislength=arrow size, 


于 子 图 的 X 轴 和 YY 轴 的 缩放 比例 不 同 ， 因 此 设置 angles 参数 为 "xy"， 这 样 箭头 的 方向 才 


号 闪 暮 址 小 -qholdiew 
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zorder=166) 
plt.colorbar() 
plt.xlim([-1.5，1.5]) 
plt.ylim([-1.5，1.5]) 


15 


oo 


图 4.38 使 用 箭头 表示 参数 曲线 的 切线 方向 
还 可 以 用 quiver0 绘 制 起 点 和 终点 的 箭头 集合 。 下 面 的 例子 绘 


果 如 图 4-39 所 示 。 为 了 让 箭头 能 够 连接 两 个 神经 节点 
置 为 "xy"， 并 且 将 scale 设置 为 1。 这 样 箭头 的 长 度 就 为 箭头 对 应 的 


levels = [4, 5, 3, 2] 
x = np.linspace(8, 1, len(levels)) 


for i in range(len(levels) - 1): 

j=i+1 

n1, n2 = levels[i], levels[j] 

y1，y2 = np.mgrid[@:1:n1*1j, @:1:n2*1j] 

xl = np.full_like(y1, x[i]) 

x2 = np.full_like(y2, x[j]) 

plt.quiver(x1, yl1l, x2-x1, y2-y1, 
angles="xy", units="dots", scale units="xy", 
scale=1, width=2, headlength=10, 
headaxislength=10, headwidth=4) 


yp = np.concatenate([np.linspace(0, 1, n) for n in levels]) 


xp 
plt.plot(xp, yp, "0", ms=12) 
plt.gca().axis("off") 
plt.margins(6.1，6.1) 


np.repeat(x, levels) 


， 将 scale_units 


制 神 


久 量 


大 里 


经 网 络 结构 示意 图 ， 效 


WL pa 


设置 为 "xy"， 将 angles 设 


在 数据 空间 中 的 长 度 。 


图 439 使 用 quiver0 绘 制 神经 网 络 结构 示意 图 


4.5.10 ”三维 绘图 


mpl_toolkitsmplot3d 模块 在 matplotlib 的 基础 上 提供 了 三 维 作 图 的 功能 。 由 于 它 使 用 
matplotlib 的 二 维 绘图 功能 实现 三 维 图 形 的 绘制 工作 ， 因 此 绘图 速度 有 限 ， 不 适合 用 于 大 规模 数 
据 的 三 维 绘图 。 如 果 读 者 需要 更 复杂 的 三 维 数据 可 视 化 功能 ， 请 阅读 TVTK 与 Mayavi 章节 。 

F 面 是 绘制 三 维 曲面 的 程序 ， 程 序 的 输出 如 图 440 所 示 。 


import mpl_toolkits.mplot3d © 


x, y = np.mgrid[-2:2:26j，-2:2:26j] @ 
z= Xx* np.exp( - x**2 - y**2) 


fig = plt.figure(figsize=(8, 6)) 

ax = plt.subplot(111, projection='3d') © 

ax.plot_surface(x, y, z, rstride=2, cstride=1, cmap = plt.cm.Blues r) @ 
ax.set_xlabel("X") 

ax.set_ylabel("Y") 

ax.set_zlabel("2") 


= 
15 20 -20 


图 440 使 用 mplot3D 绘制 的 三 维 曲面 图 


音 痕 址 六 -qholdeu 
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@ 首 先 载 入 mplot3d 模 块 ,matplotib 中 三 维 绘图 相关 的 功能 均 在 此 模块 中 定义 .@ 使 用 mgrid 
创建 X-Y 平 面 的 网 格 并 计算 网 格 上 每 点 的 高 度 z。 由 于 绘制 三 维 曲面 的 函数 要 求 其 X、Y 和 也 
轴 的 数据 都 用 相同 形状 的 二 维 数组 表示 , 因此 这 里 不 能 使 用 ogrid 创建 。 和 之 前 的 imshow0 不 同 ， 
数组 的 第 0 轴 可 以 表示 XX 和 YY 轴 中 的 任意 一 个 , 在 本 例 中 第 0 轴 表 示 X 轴 , 第 1 轴 表 示 Y 轴 。 
目 在 当前 图 表 中 创建 一 个 子 图 ， 通 过 projection 参数 指定 子 图 的 投影 模式 为 "3d"， 这 样 
subplot0 将 返回 一 个 用 于 三 维 绘图 的 Axes3D 子 图 对 象 。 


投影 模式 
投影 模式 决定 了 点 从 数据 坐标 转换 为 屏幕 坐标 的 方式 . 可 以 通过 下 面 的 语句 获得 当前 有 效 
的 投影 模式 的 名 称 : 

>>> from matplotlib import projections 

>>> projections.get_projection_names() 

['3d', 'aitoff', ‘hammer', 'lambert', "mollweide'， 'polar', "rectilinear '] 

只 有 在 载 入 mplot3d 模块 之 后 此 列表 中 才 会 出 现 3d 和 投影 模式 。'aitoff、hammer、'ambert'、 
'mollweide' 等 均 为 地 图 投影 ，'polar' 为 极 坐 标 投 影 ，'rectilinear 则 是 默认 的 直线 投影 模式 。 


@ 调 用 Axes3D 对 象 的 plot_surface0 绘 制 三 维 曲 面 图 。 其 中 参数 x、y、z 都 是 形状 为 (20, 20) 
的 三 维 数组 ,数组 x 和 y 构 成 了 X-Y 平 面 上 的 网 格 ,而 数组 z 则 是 网 格 上 各 点 在 曲面 上 的 取 值 。 
通过 cmap 参数 指定 值 和 颜色 之 间 的 映射 ， 即 曲面 上 各 点 的 高 度 值 与 其 颜色 的 对 应 关系 。rstride 
和 cstride 参 数 分 别 是 数组 的 第 0 轴 和 第 1 轴 的 下 标 间隔 。 对 于 很 大 的 数组 ， 使 用 较 大 的 间隔 可 
以 提高 曲面 的 绘制 速度 。 

除了 绘制 三 维 曲面 之 外 ，Axes3D 对 象 还 提供 了 许多 其 他 的 三 维 绘图 方法 。 请 读者 在 官方 
网 站 查看 各 种 三 维 绘图 的 演示 程序 。 


4.6 matplotlib 技巧 集 


仿 与 本 节 内 容 对 应 的 Notebook 为 : 04-matplotlib/matplotlib-600-tipsipynb。 


作为 本 章 的 最 后 一 节 ， 让 我 们 介绍 一 些 比较 特别 的 用 法 。 
4.6.1 使 用 agg 后 台 在 图 像 上 绘图 


matplotlib 绘制 的 图 表 十 分 细腻 , 这 是 因为 它 的 后 台 绘 图 库 是 用 C++ 开发 的 高 质量 反 锯齿 二 
维 绘图 库 : Anti-Grain Geometry (AGG)。 如 果 想 绘制 一 些 二 维 图 形 ， 但 不 需要 matplotlib 的 图 表 


功 


能 ， 我 们 可 以 直接 在 内 存 中 绘制 图 像 ， 然 后 将 其 转换 成 NumPy 数组 。 
下 面 的 代码 载 入 RendererAgg( 夯 布 ), 并 创建 一 个 长 宽 都 是 250 个 像素 的 RendererAgg 对象 ， 


第 三 个 参数 为 DPI， 该 参数 不 影响 画布 的 大 小 。 其 buffer rgba( 方 法 获得 画布 中 保存 绘图 结果 


得 


个 
个 


PP 
条 


缓存 ， 通 过 frombuffer0 将 该 缓存 转换 为 NumPy 数组 ， 并 按照 画布 的 大 小 调用 reshape0。 最 后 
到 的 数组 arr 的 形状 为 250,250, 和, 其 中 第 2 轴 的 4 表示 画布 有 4 个 通道 : 红 、 绿 、 蓝 、 透 明 。 


import numpy as np 
from matplotlib.backends.backend_agg import RendererAgg 


w, h = 256，256 

renderer = RendererAgg(w，h，96) 

buf = renderer.buffer_rgba() 

arr = np.frombuffer(buf，np.uint8).reshape(h，w，-1) 
print arr.shape 

(256，256，4) 


RendererAgg 对 象 提供 了 一 些 draw_*0 方 法 用 于 在 画布 上 绘图 , 例如 下 面 的 代码 首先 创建 一 
Path 对 象 ， 然 后 调用 rendererdraw_path0 在 画布 上 绘制 该 Path 对 象 ， 如 图 441 所 示 。 其 第 一 
参数 为 一 个 GraphicsContextBase 对 象 , 用 来 设置 绘图 时 的 一 些 属性 , 例如 线 宽 、 线 等 。 
三 个 参数 是 一 个 坐标 变换 对 象 ， 在 本 例 中 使 用 恒 等 变换 ， 第 4 个 参数 为 路 径 的 填充 颜色 。 


from matplotlib.path import Path 
from matplotlib import transforms 


path_data = [ 
(Path.MOVETO, (179, 1)), 
(Path.CURVE4, (117, 75)), 
(Path.CURVE4, (12, 230)), 
(Path.CURVE4, (118, 230)), 
(Path.LINETO, (142, 187)), 
(Path.CURVE4, (2106, 290)), 
(Path.CURVE4, (2506, 132)), 
(Path.CURVE4, (20606, 105)), 
(Path.CLOSEPOLY, (179, 1)), 

| 


code, points = zip(*path_data) 
path = Path(points, code) 


gc = renderer.new gc() 
gc.set_ linewidth(2) 
gc.set_ foreground((1, 80, 0)) 
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对 象 ， 然 后 调用 它们 的 draw(0 方 法 在 画布 上 绘图 。 


gc.set_antialiased(True) 
renderer.draw_path(gc, path, transforms.IdentityTransform(), (6, 1, 8)) 


也 可 以 使 用 matplottib 中 提供 的 Artist 对 象 绘图 。 下 面 首先 创建 一 个 Circle 对 象 和 一 个 Text 
于 Text 对 象 在 绘图 时 需要 获取 画布 的 dpi 


属性 ， 因 此 在 调用 draw0 之 前 先 将 其 figure 属性 设置 为 renderer。 


from matplotlib.patches import Circle 
from matplotlib. text import Text 


c= Circle((w/2, h/2), 580, edgecolor="blue", facecolor="yellow", linewidth=2, alpha=8.5) 
c.draw(renderer) 


text = Text(w/2, h/2, "Circle", va="center", ha="center") 
text.figure = renderer 
text .draw(renderer) 


为 了 在 IPython Notebook 中 显示 ar 所 表示 的 图 像 ， 可 以 调用 pypoltimsave0。 其 第 一 个 参数 


可 以 是 文件 名 或 者 拥有 文件 接口 的 对 象 ， 这 里 使 用 BytesIO 对 象 将 PNG 图 像 的 内 容 保存 在 
png_buf 中 。 然 后 使 用 IPython 的 display_png0 显 示 该 内 存 中 的 PNG 图 像 。 


from io import BytesIO 

from IPython.display import display_png 
png_buf = BytesIO() 

plt.imsave(png_buf, arr, format="png") 
display_png(png_buf.getvalue(), raw=True) 


图 441 直接 使 用 RendererAgg 绘 图 


本 书 提 供 了 一 个 可 以 在 图 像 上 绘图 的 ImageDrawer 类 。 下 面 使 用 ImageDrawer 在 图 像 上 绘 


制 标记 、 文 字 、 直 线 、 圆 形 、 托 形 以 及 椭圆 ， 并 使 用 本 书 提供 的 %array_image 魔法 命令 将 结果 
图 像 显 示 在 Notebook 中 ， 结 果 如 图 4-42 所 示 。 


ImageDrawer 的 reverse 参数 决定 Y 轴 的 方向 ， 默 认 值 为 Tme， 表 示 Y 轴 方向 向 下 ， 和 图 像 
的 像素 坐标 系 方向 相同 ，False 表 示 Y 轴 方向 向 上 ， 和 数学 上 的 笛 卡 尔 坐 标 系 的 定义 相同 。 


scpy2.matplotlib.ImageDrawer: 使 用 RendererAgg 直接 在 图 像 上 绘图 ， 以 方便 用 户 在 图 
基 像 上 标注 信息 。 


from scpy2.matplotlib import ImageDrawer 

img = plt.imread("vinci target.png") 

drawer = ImageDrawer(img) 

drawer. set_parameters(lw=2, color="white", alpha=08.5) 
drawer.line(8, 60, 280,608) 

drawer.circle(123, 130, 50, facecolor="yellow", lw=4) 
drawer.markers("x", [82, 182], [218, 218], [56, 166]) 
drawer.rectangle(81, 3306, 160, 30, facecolor="blue") 
drawer.text(106, 50, u"Mona Lisa", fontsize=40) 
drawer.ellipse(119，255，266，168，166，facecolor="red") 
%array_image drawer.to_array() 
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图 4-42 使 用 本 书 提供 的 ImageDrawer 在 图 像 上 绘图 


4.6.2 ”响应 鼠标 与 键盘 事件 


为 了 在 Notebook 中 执行 本 节 代 码 ， 需 要 启动 GUI 事件 处 理 线程 ， 例 如 执行 %gui qt 和 
间 9omatplotlib qt， 将 局 动 Qt 的 GUI 线程 ， 并 将 Qt4Agg 设 置 为 matplotlib 的 绘图 后 台 。 如 
果 希 望 切换 到 嵌入 模式 ， 可 以 再 执行 W%matplotlib inline。 


界面 中 的 事件 绑 定 都 是 通过 Figure.canvas.mpl_connect0 进 行 的 , 它 的 第 一 个 参数 为 事件 名 ， 
第 二 个 参数 为 事件 响应 函数 ， 当 指定 的 事件 发 生 时 ， 将 调用 指定 的 函数 。 
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%gui qt 
%matplotlib qt 


1. 键盘 事件 
下 面 的 程序 响应 键盘 按键 ， 并 输出 按键 的 值 : 


scpy2.matplotlib.key_event_show_key: 显示 触发 键盘 按键 事件 的 按键 名 称 。 


import sys 
fig, ax = plt.subplots() 


def on_key_press(event): 
print event.key 


sys.stdout.flush() 
蕊 
2 
5 fig.canvas.mpl_connect('key_press_event', on_key_press) 
续 | control 
制 | ctrl+a 
alt 
alt+l1 


| 可 以 通过 mpl_connect 的 帮助 文档 查看 所 有 的 事件 名 称 。 表 4-8 列 出 了 其 支持 的 所 有 事 


|” 件 名 ; 
表 4.8 支持 的 事件 名 及 含义 
事件 名 含义 
: button, press, evert 按 下 鼠标 按键 
: button_release_event 释放 鼠标 
| draw_event 界面 重新 绘制 
: key_press event 按 下 键盘 上 的 按键 
| key_release_event 释放 键 稚 按键 
: motion_notify_event | 鼠标 移动 
| pick_event 鼠标 点 选 绘图 对 象 
| scroll_event 鼠标 滚 轴 事 件 
| ee 局 标 移 进 图 表 
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( 续 表 ) 


事件 名 含义 
figure_leave_event 鼠标 移出 图 表 
axes_enter_event 鼠标 移 进 子 图 
axes_leave_event 鼠标 移出 子 图 


close_event 关闭 图 表 

当前 所 有 注册 的 响应 函数 可 以 通过 Figure.canvas.callbacks.callbacks 查看 。 下 面 的 程序 输出 所 
有 的 事件 响应 函数 ， 响 应 函数 的 执行 按照 显示 的 顺序 进行 ， 可 以 看 出 除了 我 们 绑 定 的 响应 函数 
之 外 ，matplotlib 还 绑 定 了 处 理 快捷 键 的 键盘 响应 函数 。 


for key，funcs in fig.canvas.callbacks.callbacks.iteritems(): 
print key 
for cid, wrap in sorted(funcs.items()): 
func = wrap.func 
print " {8}:{1}.{2}".format(cid, func._ module__, func) 
key_press_event 
3:matplotlib.backend_bases.<function key_press at 6x693A4C36> 
6:_main__.<function on_key_press at 6x69B65FB6> 
motion_notify_event 
4:matplotlib.backend_bases.<function mouse_move at 6x693A4FB6> 
scroll_event 
2:matplotlib.backend_bases.<function pick at 6x693A46F6> 
button_press_event 
1:matplotlib.backend_bases.<function pick at 6x693A46F6> 


下 面 的 程序 通过 键盘 按键 修改 曲线 的 颜色 。 由 于 某 些 按键 与 默认 的 快捷 键 重复 ， 因 此 这 里 
通过 mpl_disconnect0 取 消 默认 快捷 键 的 响应 函数 的 绑 定 ， 其 参数 为 调用 mpl_connect0 时 所 返回 
的 整数 。 默认 快捷 键 的 响应 函数 对 应 的 整数 可 以 通过 Figure.canvas.manager.key_press_handler_id 
获得 。 

@ 在 响应 函数 中 通过 line.set_color0 修 改 曲 线 的 颜色 ，@ 并 调用 Figure.canvas.draw_idle0 重 新 
绘制 整个 图 表 。 


A scpy2.matplotlib.key_event_change_color: 通过 按键 修改 曲线 的 颜色 。 


fig，ax = plt.subplots() 
x = np.linspace(96，16，1666) 
line, = ax.plot(x, np.sin(x)) 
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def on_key_press(event) : 
if event.key in “rgbcmyk ': 
line.set_color(event.key) © 
fig.canvas.draw_idle() © 


fig.canvas.mpl_disconnect(fig.canvas.manager.key_press_handler_id) 
fig.canvas.mpl_connect( 'key_press_event', on_key_press) 


2. 鼠标 事件 


当 鼠 标 在 子 图 范围 内 产生 动作 时 ， 将 触发 鼠标 事件 。 鼠 标 事件 分 为 三 种 : 
e@ button_press_event: 鼠标 按键 按 下 时 触发 。 

e button_release_event: 鼠标 按键 释放 时 触发 。 

e motion_notify_event: 鼠标 移动 时 触发 。 

鼠标 事件 的 相关 信息 可 以 通过 event 对 象 的 属性 获得 : 

e name: 事件 名 。 

e button: 鼠标 按键 ，1、2、3 表示 左 中 右 按 键 ，None 表示 无 按键。 

® Xx,y: 在 图 表 中 的 像素 坐标 。 

e@ xdata, ydata: 鼠标 在 数据 坐标 系 中 的 坐标 。 

F 面 的 程序 显示 了 鼠标 事件 的 各 种 信息 : 
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A scpy2.matplotlib.mouse_event_show_info: 显示 子 图 中 的 鼠标 事件 的 各 种 信息 。 


import sys 
fig, ax = plt.subplots() 
text = ax.text(0.5, 0.5, "event", ha="center", va="center", fontdict={"size":28}) 


def on_mouse(event): 
global e 
e = event 
info = "{}\nButton:{}\nFig x,y:{}, {}\nData x,y:{:3.2f}, {:3.2f}".format( 
event .name, event.button, event.x, event.y, event.xdata, event.ydata) 
text. set_text(info) 
fig.canvas.draw() 


fig.canvas.mpl_connect( 'button_press_event', on_mouse) 


fig.canvas.mpl_connect( 'button_release_event', on_mouse) 
fig.canvas.mpl_connect( 'motion notify event', on_mouse) 
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程序 的 执行 结果 如 图 443 所 示 : 


10 
0.8 
motion_notify_event 
05 Button:None 
0 Fig x,y:213, 206.0 
Data x,y:0.27, 0.85 
02 
0%.6 0.2 0.4 0.6 0.8 1.0 


图 443 显示 鼠标 事件 信息 


下 面 的 例子 通过 响应 上 述 三 个 鼠标 事件 ， 实 现 图 表 中 形状 的 移动 。 我 们 将 所 有 的 事件 响应 

封装 到 PatchMover 类 中 ， 它 有 三 个 内 部 使 用 的 属性 : 

@ selected_patch: 保存 当前 被 选中 的 Patch 对 象 。 

@ ”start_mouse_pos: 保存 Patch 对 象 被 选中 时 鼠标 在 子 图 中 的 坐标 。 

estart_patch_pos: 保存 Patch 对 象 被 选中 时 在 子 图 中 的 坐标 。 

@ 在 on_press0 中 ， 对 子 图 中 的 所 有 Patch 对 象 进行 循环 判断 ， 这 里 采用 zorder 属性 排序 之 
后 的 逆序 循环 ， 保 证 在 最 上 层 的 Patch 对 象 优 先 被 选中 。@ 通 过 Patch.contains_point0 判 断 当前 的 
鼠标 坐标 是 否 在 Patch 对 象 之 内 ， 注 意 这 里 需要 使 用 图 表 坐 标 系 中 的 像素 坐标 。 一 旦 判断 鼠标 
在 当前 的 Patch 对 象 之 中 ， 则 保存 当前 Patch 对 象 ， 以 及 相关 的 坐标 信息 。 注 意 我 们 保存 数据 坐 
标 系 的 坐标 ， 因 为 Patch 对 象 的 移动 是 在 数据 坐标 系 中 进行 的 。 

目 在 on_motion0 中 ， 通 过 当前 的 鼠标 坐标 计算 被 选中 Patch 对 象 的 当前 位 置 ， 所 有 的 计算 
都 在 数据 坐标 系 中 进行 。@ 调 用 Figure.canvas.draw_idle0 重 新 绘制 整个 图 表 。 

全 在 on_release0 中 ， 取 消 被 选中 的 Patch 对 象 。 


(@, scpy2.matplotlib.mouse_event_move_polygon: 演示 通过 和 鼠标 移动 Patch 对 象 。 


from numpy.random import rand, randint 
from matplotlib.patches import RegularPolygon 


class PatchMover(object): 
def _ init (self, ax): 
self.ax = ax 
self.selected patch = None 
self.start_mouse pos = None 
self.start_patch_pos = None 
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fig = ax.figure 

fig.canvas.mpl_connect('button_press_event', self.on_ press) 
fig.canvas.mpl_connect( 'button_release event', self.on release) 
fig.canvas.mpl_connect( 'motion notify event', self.on_motion) 


def on_press(self, event): © 

patches = self.ax.patches[:] 

patches.sort(key=lambda patch:patch.get_ zorder()) 

for patch in reversed(patches): 

if patch.contains point((event.x, event.y)): © 

self.selected patch = patch 
self.start_mouse pos = np.array([event.xdata, event.ydata]) 
self.start_patch pos = patch.xy 
break 


def on motion(self, event): ® 
if self.selected patch is not None: 
pos = np.array([event.xdata, event.ydata]) 
self.selected patch.xy = self.start patch pos + pos - self.start_mouse_pos 
self.ax.figure.canvas.draw idle() ©@ 


def on_release(self, event): © 
self.selected patch = None 


fig, ax = plt.subplots() 
ax.set_aspect("equal") 
for i in range(16): 
poly = RegularPolygon(rand(2), randint(3, 10), rand() * 8.1 + 8.1, facecolor=rand(3), 
zorder=randint(106,160)) 
ax.add_patch(poly) 
ax.relim() 
ax.autoscale() 
pm = PatchMover(ax) 


plt.show() 
. 点 选 事件 


上 而 通过 Patch.contains_point0 判 断 和 鼠标 的 点 和 否 发 生 在 Patch 对 象 内 部 。 但 是 对 于 
线 这 样 的 对 象 ， 没 有 类 似 的 判断 方法 。 才子 响应 让 标点 选 图 形 的 事件 ， 可 以 设置 图 形 对 象 的 
picker 属性 为 Tue， 然 后 在 pick_event 事 件 响 应 函数 中 加 以 处 理 。 


在 下 面 的 例子 中 ， 创 建 了 一 个 Rectangle 对 象 和 一 个 Line2D 对 象 ， 并 分 别 设置 其 picker 属 


性 ， 表 示 这 两 个 图 形 对 象 支持 点 选 事件 。 由 于 Rectangle 占据 一 块 面积 ， 因 此 只 需要 设置 为 Tme 
即 可 ， 而 对 于 表示 曲线 的 Line2D 对 象 ， 为 了 方便 点 选 ， 在 调用 plot0 创 建 曲线 时 通过 picker 参 
数 设 置 了 一 个 容错 值 ， 鼠 标 坐 标 到 曲线 的 距离 小 于 8.0 就 认为 该 曲线 被 点 选 。 


在 点 选 事 件 处 理 函 数 on_pick0 中 ， 我 们 修改 曲线 的 线 宽 和 算 形 的 填充 颜色 。 


A scpy2.matplotlib.pick_event_demo: 演示 绘图 对 象 的 点 选 事件 。 


fig，ax = plt.subplots() 

rect = plt.Rectangle((np.pi，-6.5)，1，1，fc=np.random.random(3)，picker=True) 
ax.add_patch(rect) 

x = np.linspace(8, np.pi*2, 168) 

y = np.sin(x) 

line, = plt.plot(x, y, picker=8.0) 


def on_pick(event): 

artist = event.artist 

if isinstance(artist, plt.Line2D): 
lw = artist.get_linewidth() 
artist.set linewidth(lw % 5 + 1) 

else: 
artist.set_fc(np.random.random(3)) 

fig.canvas.draw_idle() 


fig.canvas.mpl_connect('pick_event', on_pick) 
4. 实时 高 亮 显示 曲线 


为 了 方便 用 户 分 辩 多 条 曲线 ， 可 以 通过 响应 鼠标 事件 ， 当 鼠标 靠近 某 条 曲线 时 ， 高 亮 显示 
曲线 。 下 面 的 例子 中 ， 我 们 采用 面向 对 象 的 设计 模式 ， 将 鼠标 事件 处 理 函 数 包装 在 


CurveHighLighter 内 部 。 它 的 alpha 参数 为 非 高 亮 显示 时 曲线 的 透明 度 ，alpha 为 1 表示 完全 不 透 


明 


调用 


如 果 为 None 表示 取消 高 亮 显示 。 


，0 表 示 完 全 透明 ;，linewidth 参数 为 高 亮 显示 曲线 时 曲线 的 宽度 。 
@ 绑 定 鼠 标 移动 事件 motion_notify_event 到 on_move0 方 法 之 上 。 当 鼠标 在 图 表 中 移动 时 将 
on_move0 方 法 。 
所 所 有 高 亮 显示 的 逻辑 判断 都 在 highlight0 中 进行 ,其 参数 target 为 高 亮 显示 的 Line2D 对 象 ， 


e 当 无 高 亮 显 示 时 ， 将 所 有 曲线 的 alpha 属性 和 linewidth 设置 为 1。 
。 当 有 高 亮 显 示 时 ， 将 高 亮 显示 的 曲线 的 alpha 属性 设置 为 1， 将 linewidth 设置 为 3; 将 
非 高 亮 显示 的 曲线 的 alpha 属性 设置 为 03， 将 linewidth 设置 为 1。 
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。 若 有 任意 一 条 曲线 的 属性 被 修改 ， 则 需要 调 


表 ， 它 会 等 到 空闲 时 


0 


引子 图 中 的 所 有 曲线 (Line2D 对 象 ) 都 在 


其 属性 工 


循环 。Line2D.contains0 可 以 用 于 判断 事件 是 否 发 生 在 


离 小 于 其 pickradius 属性 时 ， 将 会 判断 事件 发 生 
元 素 的 元 组 ， 其 第 0 个 元 素 为 判断 结果 ， 第 1 个 元 素 为 保存 详细 信息 的 字 


会 scpy2.matplotlib.mouse_event_highlight_curve: 鼠标 移 到 曲线 之 上 时 总 


import matplotlib.pyplot as plt 
import numpy as np 


class CurveHighLighter(object): 


def _ init_ (self, ax, alpha=0.3, linewidth=3): 


self.ax = ax 
self.alpha = alpha 
self.linewidth = 3 


ax.figure.canvas.mpl_connect('motion_notify_event', self.on move) © 


def highlight(self, target): @ 
need_redraw = False 
if target is None: 
for line in self.ax.lines: 
line.set_alpha(1.8) 


if line.get_ linewidth() != 1.6: 
line.set_linewidth(1.8) 


need_redraw = True 
else: 
for line in self.ax.lines: 


lw = self.linewidth if line is target else 1 
if line.get_ linewidth() != lw: 
line.set_linewidth(1w) 


need_redraw = True 


alpha = 1.6 if lw == self.linewidth else self.alpha 


line.set_alpha(alpha) 


if need_redraw: 


self.ax.figure.canvas.draw : 


idle() 


Figure.canvas.draw_idle() 


对 象 内 部 。 当 鼠标 坐标 离 
在 Line2D 对 象 之 上 。 


i 绘制 整个 图 


es 列表 中 , 对 此 列表 中 的 Line2D 对 象 进行 


contains( 返 旧 


线 的 像素 距 
一 个 有 两 个 


def on_move(self，evt): 

ax = self.ax | 

for line in ax.lines: 

if line.contains(evt)[6]: © 
self.highlight(line) 

break | 

else: | 

self.highlight(None) 


fig, ax = plt.subplots() 
x = np.linspace(0, 506, 380) 


from scipy.special import jn 


for i in range(1, 10): 


ax.plot(x, jn(i, x)) be 

ch = CurveHighLighter(ax) | 时 

! 给 

图 4-44 为 实际 运行 效果 ， 当 鼠标 芒 停 到 某 条 曲线 之 上 时 , 该 曲线 加 粗 显示 ,而 其 他 曲线 则 | 别 

变 为 半 透 明显 示 。 | 
0.6 


0.4 


0.2 


0.0 


图 444 高 亮 显示 鼠标 巧 停 曲线 


4.6.3 动画 


通过 修改 图 形 元 素 的 各 种 属性 并 重新 绘制 图 表 ， 可 以 实现 简单 的 动画 效果 。 在 下 面 的 例子 
中 ，@ 首 先 创建 一 个 50 毫秒 的 定时 器 timer， 并 调用 其 add_callback0 添 加 定时 事件 ， 其 第 一 个 
参数 为 定时 事件 发 生 时 调用 的 函数 ， 第 二 个 参数 为 传递 给 此 函数 的 对 象 。 由 于 我 们 需要 对 图 表 
中 曲线 的 数据 进行 修改 ， 因 此 需要 将 Line2D 对 象 line 传递 给 update data0 。@ 调 ! 
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Line2D.set_ydata0 设 置 曲线 的 立轴 数据 。 臭 调用 Figure.canvas.draw0 重 绘 整 张 图 表 。 


import numpy as np 
import matplotlib.pyplot as plt 


fig, ax = plt.subplots() 
x = np.linspace(0, 106, 1660) 


line, = ax.plot(x, np.sin(x), lw=2) 


def update data(line): 


x[:] += 6.1 
line.set ydata(np.sin(x)) ©@ 
fig.canvas.draw() © 


timer = fig.canvas.new timer(interval=56) © 
timer.add_callback(update_data, line) 
timer. start() 


1. 使 用 缓存 快速 重 绘图 表 


然而 Figure.canvas.draw0 的 绘图 速度 较 慢 ， 为 了 提高 重 绘 速度 ， 可 以 快速 重 绘图 表 中 的 静 
态 元 素 ， 只 更 新 有 动态 效果 的 元 素 。 在 下 面 的 例子 中 : 

@ 创 建 绘图 元 素 时 ， 设 置 其 animated 属性 为 Tme。@ 在 调用 Figure.canva.draw0 重 绘 整个 图 
表 时 ， 会 忽略 所 有 animated 为 True 的 对 象 。 罩 这 时 所 有 的 静态 元 素 都 已 经 绘制 完毕 ， 调 用 
Figure.canvas.copy_from_bbox0 保 存 子 图 对 象 对 应 区 域 中 的 图 像 信息 到 background 中 。 子 图 对 象 
在 图 表 对 象 中 的 位 置 和 大 小 可 以 通过 其 bbox 属性 获得 。 

在 时 钟 事件 处 理 函 数 中 ，@ 首 先 调 用 Figure.canvas.restore_region0 恢 复 所 保存 的 图 像 信息 
这 相当 于 擦 除 所 有 动态 元 素 ， 重 新 绘制 了 所 有 的 静态 元 素 。@ 在 更 新 曲线 的 Y 轴 数据 之 后 ， 调 
用 子 图 对 象 的 draw_artist0 在 Canvas 对 象 中 绘制 曲线 ， 此 时 Canvas 对 象 中 已 经 是 一 幅 完 整 的 图 
表 的 图 像 了 。@ 调 用 Figure.canvas.blit0 将 Canvas 中 指定 区 域 的 内 容 绘制 到 屏幕 上 。 


fig，ax = plt.subplots() 
x = np.linspace(86，16，1666) 
line, = ax.plot(x, np.sin(x), lw=2, animated=True) © 


fig.canvas.draw() © 
background = fig.canvas.copy_from bbox(ax.bbox) © 


def update data(line): 
x[:] += 6.1 
line.set_ ydata(np.sin(x)) 
fig.canvas.restore region(background) ©®@ 


中 ， 


ax.draw_artist(line) © 
fig.canvas.blit(ax.bbox) © 


timer = fig.canvas.new timer(interval=56) 
timer.add_callback(update data, line) 
timer. start() 


2. animation 模块 


通过 前 面 两 个 简单 的 例子 ， 我 们 了 解 了 在 matplotlib 中 制作 动画 的 原理 ， 不 过 在 实际 使 用 
- 般 会 使 用 animation 模块 制作 动画 效果 。 例 如 FuncAnimation 对 象 将 定期 调用 用 户 定 义 的 


函数 来 更 新 图 表 中 的 元 素 。 


@ 创 建 曲线 对 象 时 ， 设置 animated 参数 为 Tme。@ 在 动画 回调 函数 update_line0 中 设置 所 有 


动画 元 素 的 数据 ， 它 有 一 个 参数 为 当前 的 显示 帧 数 ， 这 里 使 用 帧 数 修改 波形 的 相位 ， 并 返回 一 
个 包含 所 有 动画 元 素 的 序列 。@ 创 建 FuncAnimation 对 象 定时 调用 update_line0，interval 参数 为 
每 秒 的 帧 数 ，blit 为 True 表示 使 用 缓存 加 速 每 帧 图 像 的 绘制 。frames 参数 设置 最 大 帧 数 ， 
update_line0 的 帧 数 参 数 将 在 0 到 99 之 间 循 环 变化 。 


import numpy as np 
from matplotlib import pyplot as plt 
from matplotlib.animation import FuncAnimation 


fig, ax = plt.subplots() 
x = np.linspace(86，4#xnp.pi，266) 
y = np.sin(x) 
line, = ax.plot(x, y, lw=2, animated=True) © 
def update_ line(i): 
y = np.sin(x + i*2*np.pi/166) 
line.set_ydata(y) 
return [line] @ 
ani = FuncAnimation(fig, update_line, blit=True, interval=25, frames=100) © 
若 想 将 动画 保存 成 动画 文件 ， 可 以 调用 如 下 方法 : 


matplotiib 会 使 用 系统 中 安装 的 视频 压缩 软件 (如 ffimpeg.exe) 生 成 视频 文件 .请 读者 确认 
视频 压缩 软件 的 可 执行 文件 的 路 径 是 否 在 PATH 环境 变量 中 。 


ani.save('sin wave.mp4', fps=25) 
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4.6.4 添加 GUI 面板 


在 matplotlib 的 主页 中 可 以 找到 将 图 表 嵌 入 各 种 主流 界面 库 的 演示 程序 ， 这 些 程序 都 是 首 
先 创建 一 个 GUI 窗口 ， 然 后 将 图 表 作 为 控件 嵌入 窗口 中 。 本 节 介 绍 一 种 更 加 简洁 的 方法 : 为 
matplotlib 图 表 窗口 添加 GUI 控件 的 控制 面板 。 


[@® scpy2.matplotlib.gui_panel: 提供 了 TK 与 QT 界面 库 的 滑 标 控件 面板 类 TkSliderPanel 
加 加 和 QtSliderPanel。 人 tk_panel_demopy 和 qt_panel_demo.py 为 其 演示 程序 。 


下 面 是 使 用 TkSliderPanel 的 一 个 例子 。@ 首 先 调用 matplotlib.use0 将 后 台 界 面 库 设置 为 
"TkAgg", 该 语句 必须 在 matplotlib 的 其 他 函数 之 前 被 调用 .@ 我 们 希望 绘制 的 曲线 函数 由 exp_sin0 
定义 ， 其 第 一 个 参数 为 自 变量 ， 其 余 参 数 为 函数 中 的 各 个 系数 。@update0 函 数 接收 新 的 系数 ， 
并 调用 exp_sin0 计 算 新 系数 对 应 的 函数 值 。@ 然 后 调用 line.set_data0 更 新 曲线 的 数据 。 在 更 新 子 
图 的 显示 范围 之 后 ，@ 调 用 fig.canvas.draw_idle0 重 新 绘制 整个 图 表 。 

@ 创 建 一 个 TkSliderPanel 对 象 ， 它 的 第 一 个 参数 为 图 表 对 象 ， 第 二 个 参数 定义 控制 面板 中 
的 滑 标 名 称 以 及 取 值 范围 ， 第 三 个 参数 为 回调 函数 。 当 某 个 滑 标 控件 的 值 发 生变 化 时 ， 将 调用 
t 函 数 ,@ 最 后 调用 其 set_parameters0 设 置 各 个 滑 标 控件 的 初始 值 . 程 序 的 运行 结果 如 图 4-45( 左 ) 
所 示 ， 而 右 图 则 是 采用 QtSliderPanel 时 的 界面 截图 。@ 为 了 在 Notebook 中 显示 TK 界面 库 的 窗 
， 需 要 执行 9gui tk 魔法 命令 ， 然 后 调用 fig.show0 显 示 图 表 窗 口 。 如 果 是 在 单独 的 进程 中 运行 
该 程序 ， 则 需要 调用 plshow0 以 显示 窗口 。 

由 于 程序 涉及 GUI 库 的 用 法 ， 限 于 篇 幅 这 里 不 再 详细 叙述 ,请 感 兴趣 的 读者 查看 本 书 提供 
的 相关 源 代码 。 


%gui tk 

import numpy as np 

import matplotlib 
matplotlib.use("TkAgg") © 


import pylab as pl 


def exp_sin(x, A, f, z, p): © 


return A * np.sin(2 * np.pi * f * x+p) * np.exp(z * x) 
fig, ax = pl.subplots() 
x = np.linspace(1le-6, 1, 560) 


pars mt A 2 0 
y = exp_sin(x, **pars) 


line, = pl.plot(x, y) 


def update(**kw): © 
y = exp_sin(x, **kw) 
line.set_data(x, y) @ 
ax.relim() 
ax.autoscale view() 
fig.canvas.draw idle() © 


from scpy2.matplotlib.gui_panel import TkSliderPanel 


panel = TkSliderpanel(fig, ©@ 
[("A", 0, 10), ("f", 6, 19), ("z", -3, 6), ("p", 9, 2*np.pi)], 
update, cols=2, min_value_width=88) 
panel.set_parameters(**pars) @ 
fig.show() © 


| 


ua 


a0 1 tn 
和 sn ?全 ， 


| 


图 445 为 图 表 添加 GUI 控件 ，TK( 左 图 ) 和 QT( 右 图 ) 
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Pandas- 方 便 的 数据 分 析 库 


NumPy 虽然 提供 了 方便 的 数组 处 理 功能 ， 但 它 缺 少数 据 处 理 、 分 析 所 需 的 许多 快速 工具 。 
Pandas 基于 NumPy 开发 ， 提 供 了 众多 更 高 级 的 数据 处 理 功能 。Pandas 的 帮助 文档 十 分 全 面 ， 因 
此 本 章 主 要 介绍 Pandas 的 一 些 基本 概念 和 帮助 文档 中 说 明 不 够 详细 的 部 分 。 希 望 读 者 在 阅读 本 
章 之 后 能 更 容易 阅读 官方 文档 。 


import pandas as pd 
pd._version 
"8.16.2 


5.1 Pandas 中 的 数据 对 象 


IQ, 与 本 节 内 容 对 应 的 Notebook 为 : 05-pandas/pandas-100-dataobjects.ipynb。 


Series 和 DataFrame 是 Pandas 中 最 常用 的 两 个 对 象 。 本 节 介 绍 这 两 种 对 象 的 基本 概念 以 及 
常用 属性 ， 在 后 续 章 节 将 介绍 对 它们 进行 操作 和 运算 的 各 种 函数 和 方法 。 


5.1.1 Series 对 象 


Series 是 Pandas 中 最 基本 的 对 象 ， 它 定义 了 NumpPy 的 ndarray 对 象 的 接口 _array_0， 因 此 
可 以 用 Numpy 的 数组 处 理 函 数 直接 对 Series 对 象 进行 处 理 。Series 对 象 除 了 支持 使 用 位 置 作为 
下 标 存 取 元 素 之 外 , 还 可 以 使 用 索引 标签 作为 下 标 存 取 元 素 , 这 个 功能 与 字典 类 似 。 每 个 Series 
对 象 实 际 上 都 由 两 个 数组 组 成 : 

e@ index: 它 是 从 ndarray 数组 继承 的 Index 索引 对 象 ， 保 存 标签 信息 。 若 创建 Series 对 象 时 

不 指定 index， 将 自动 创建 一 个 表示 位 置 下 标的 索引 。 
e values: 保存 元 素 值 的 ndarray 数组 ，Numpy 的 函数 都 对 此 数组 进行 处 理 。 
下 面 创 建 一 个 Series 对 象 ， 并 查看 上 述 两 个 属性 : 


s = pd.Series([1, 2, 3, 4, 5], index=["a”, "b", "c", "d", "e"]) 
print u” 索引 :"，s.index 
print u" 值 数组 :"，s.values 
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索引 : Index([u'a'’, u'b', u'c', ud'，u'e']，dtype='object') 
值 数 组 : [1 2 3 4 5] 


Series 对 象 的 下 标 运算 同时 支持 位 置 和 标签 两 种 形式 : 


print u" 位 置 下 标 


| 


print u" 标 签 下 标 s['d']:",s['d'] 
位 置 下 标 s[2]: 3 
标签 下 标 s['d']: 4 


Series 对 象 还 支持 位 置 切片 和 标签 切片 位置 切 片 遵循 Python 的 切片 规则 , 包括 起 始 位 置 ， 


但 不 包括 结束 位 置 ; 


stis3] 
b 2 


dtype: int64 


但 标签 切片 则 同时 包括 起 始 标签 和 结束 标签 。 


s['b':'d'] 
b 2 
这 3 
d 4 


dtype: int64 


和 ndarray 数组 一 样 ， 还 可 以 使 用 位 置 列表 或 位 置 数 组 存 取 元 素 ， 同 样 也 可 以 使 用 标签 列 


表 和 标签 数组 。 


s[[1,3,2]] 
D2 
d 4 
3 


dtype: int64 


ET el 
b 
人 
丰 3 


dtype: int64 


Series 对 象 同时 具有 数组 和 字典 的 功能 ， 因 此 它 也 支持 字典 的 一 些 方法 ， 例 如 


Series iteritems(): 


list(s.iteritems()) 
[Ca 1), Cb’, 2) (CC, 3), ('d’, 4), ('e’, 5)] 


当 两 个 Series 对 象 进行 操作 符 运算 时 ，Pandas 会 按照 标签 对 齐 元 素 ， 也 就 是 说 运算 操 人 


会 对 标签 相同 的 两 个 元 素 进行 计算 。 在 下 面 的 例子 中 ，s 


E 符 


标签 为 b' 的 元 素 和 s2 中 标签 为 b 的 


元 素 相 加 得 到 结果 中 的 22。 当 某 一 方 的 标签 不 存在 时 ， 默 认 以 NaN(Not a Numben) 填 充 。 
NaN 是 浮 点 数 中 的 一 个 特殊 值 ， 因 此 输出 的 Series 对 象 的 元 素 类 型 被 转换 为 float64。 


于 


s2 = pd.Series([28,30,40,56,60], index=["b","c","d","e","f"]) 


S2 S+S2 


a 和 b 26 a nan 
b 受 已 36 b pA 
C 3 d 46 C 33 
d 4 e 56 d 44 
e 5 66 e 55 
dtype: int64 dtype: int64 下 nan 
dtype: float64 


5.1.2 ”DataFrame 对 象 


DataFrame 对 象 (数据 表 ) 是 Pandas 中 最 常用 的 数据 对 象 。 Pandas 提供 了 将 许多 数据 结构 转换 
为 DataFrame 对 象 的 方法 ， 还 提供 了 许多 输入 输出 函数 来 将 各 种 文件 格式 转换 成 DataFrame 对 
象 。 在 介绍 这 些 函数 之 前 ， 我 们 需要 先 理解 DataFrame 对 象 中 的 一 些 概念 。 

1. DataFrame 的 各 个 组 成 元 素 

下 面 的 程序 调用 read_csv0 从 Soils-simple.csv 读 入 数据 ， 通 过 index_col 参数 指定 第 0 和 第 1 
列 为 行 索引 , 用 parse_dates 参数 指定 进行 日 期 转换 的 列 。 在 指定 列 时 可 以 使 用 列 的 序号 或 列 名 。 


所 得 到 的 DataFrame 对 象 如 图 5-1 所 示 ， 图 中 标识 出 了 DataFrame 的 各 个 组 成 部 分 的 名 称 。 
列 索 引 名 列 索 引 
-人 - 


ls 《|EEGLSANST ee 和 
Depression| 5.3525 |0.9775|10.6850 | 1.4725 |2015-05-26 | Lois 
Slope 2015-04-30 |Roy 
Top 5.3325 | 1.0025 | 13.3850 | 1.3725 |2015-05-21 |Roy 
Slope 5.2825 |1.3475|9.5150 |4.9100 |2015-02-06 |Diana 
ol 第 1 级 加 列 

图 5-1 DataFrame 的 结构 


行 索 引 


df_soil = pd.read_csv("data/Soils-simple.csv"，jindex_col=[6，1]，parse_dates=["Date"]) 
df_soil.columns.name = "Measures" 


图 5-1 可 知 DataFrame 对 象 是 一 个 二 维 表格 。 其 中 ， 每 列 中 的 元 素 类 型 必须 一 致 ， 而 不 
同 的 列 可 以 拥有 不 同 的 元 素 类 型 。 在 本 例 中 ， 有 4 列 浮 点 数 类 型 、1 列 日 期 类 型 和 1 列 object 
类 型 。object 类 型 的 列 可 以 保存 任何 Python 对 象 ， 在 Pandas 中 字符 串 列 使 用 object 类 型 。dtypes 
属性 可 以 获得 表示 各 个 列 类 型 的 Series 对 象 : 

df_soil.dtypes 


Measures 
pH float64 
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! Dens float64 
| Ca float64 
| Conduc float64 
. Date datetime64[ns] 
| Name object 


dtype: object 
与 数组 类 似 ， 通 过 shape 属性 可 以 得 到 DataFrame 的 行 数 和 列 数 : 


df_soil.shape 
(6, 6) 


DataFrame 对 象 拥有 行 索引 和 列 索引 ， Ee 引 标签 对 其 中 的 数据 进行 存 取 。index 属 
性 保存 行 索引 ， 而 columns 属性 保存 列 索引 。 在 本 例 中 列 索引 是 一 个 Index 对 象 ， 索 引 对象 的 名 
称 可 以 通过 其 name 属性 存 取 : 


print df_soil.columns 

print df_soil.columns.name 

Index([u'pH', u'Dens', u'Ca'’, u'Conduc', u'Date’, u'Name'], 
dtype="object', name=u'Measures') 

Measures 


行 索引 是 一 个 表示 多 级 索引 的 MultiIndex 对 象 ， 每 级 的 索引 名 可 以 通过 names 属性 存 取 : 


print df_soil.index 

print df_soil.index.names 

MultiIndex(levels=[[u'6-16'，u'16-36']，[u'Depression" ，u'"Slope'"，u'Top']]， 
1abels=[[0, 8, 0, 1, 1 1], [6, 1, 2; .0, 1, 2]]; 
names=[u'Depth', u'Contour']) 

[u'Depth', u'Contour'] 


与 二 维 数组 相同 ，DataFrame 对 象 也 有 两 个 轴 ， 它 的 第 0 轴 为 纵 轴 ， 第 1 轴 为 模 轴 。 当 某 
个 方法 或 函数 有 axis、orient 等 参数 时 ， 该 参数 可 以 使 用 整数 0 和 1 或 者 "index" 和 "columns" 来 表 
示 纵 轴 方向 和 横 轴 方 向 。 

[运算 符 可 以 通过 列 索引 标签 获取 指定 的 列 , 当下 标 是 单个 标签 时 , 所 得 到 的 是 Series 对 象 ， 
例如 df_soil["pH"], 而 当下 标 是 列表 时 , 则 得 到 一 个 新 的 DataFrame 对 象 ,例如 df_soil[["Dens", "Ca"]]: 


df_soil["pH"] df_soil[["Dens"，"Ca"]] 


| Depth Contour Measures Dens Ca 
6-16 “Depression 5.4 Depth Contour 
Slope 并 。 8-16 Depression 6.98 11 
Top S53 Slope bs Mh 


16-36 Depression 4.9 
Slope 和 
Top 4.8 
Name: pH, dtype: float64 


Top RE 
16-36 Depression 1.4 7.5 
Slope 这 
Top 1 


Joc[] 可 通过 行 索引 标签 获取 指定 的 行 , 例如 dfloc["0-10", "Top"] 获 得 Depth 为 "0-10"、Contour 
为 "Top" 的 行 ， 而 dfloc["10-30"] 获 取 Depth 为 "10-30" 的 所 有 行 。 当 结果 为 一 行 时 得 到 的 是 Series 
对 象 ， 结 果 为 多 行 时 得 到 的 是 DataFrame 对 象 。 注 意 由 于 原 数据 中 列 的 类 型 不 统一 ， 因 此 得 到 
的 Series 对 象 的 类 型 被 转换 为 最 通用 的 object 类 型 。.1oc[] 的 用 法 非常 丰富 ， 下 一 节 还 会 详细 介 


绍 它 的 各 种 用 法 。 


df_soil.loc["0-10", "Top"] 


Measures 
pH 

Dens 

Ca 
Conduc 


Date 2615-65-21 66:66:66 


Name 


df _soil.loc["16-36"] 


Measures pH Dens Ca Conduc Date Name 
Contour 

Depression 4.9 1.4 7.5 5.5 2615-63-21 Lois 
Slope Ls 4.9 2615-62-66 Diana 
Top 3. 3.6 2615-64-11 Diana 


Name: (68-16，Top)，dtype: object 


values 属性 将 DataFrame 对 象 转换 成 数组 ， 由 于 本 例 中 的 列 类 型 不 统一 ， 所 得 到 的 数组 是 


-个 元 素 类 型 为 object 的 数组 。 


df_soil.values.dtype 
dtype('0') 


2. 将 内 存 中 的 数据 转换 为 DataFrame 对 象 

调用 DataFrame0 可 以 将 多 种 格式 的 数据 转换 成 DataFrame 对 象 ， 它 的 三 个 参数 data、index 
和 columns 分 别 为 数据 、 行 索引 和 列 索引 。data 参数 可 以 是 : 

e 二 维 数组 或 者 能 转换 为 二 维 数组 的 柑 套 列表 。 


字 
或 Series 对 象 。 


典 : 字典 中 的 每 对 “ 键 - 值 ” 将 成 为 DataFrame 对 象 的 列 。 值 可 以 是 一 维 数组 、 列 表 


在 下 面 的 程序 中 ，@ 将 一 个 形状 为 (4, 2) 的 二 维 数 组 转换 成 DataFrame 对 象 ， 通 过 index 和 
columns 参数 指定 行 和 列 的 索引 。@ 将 字典 转换 为 DataFrame 对 象 ， 其 列 索引 由 字典 的 键 决定 ， 
行 索引 由 index 参数 指定 。@ 将 结构 数组 转换 为 DataFrame 对 象 ， 其 列 索 引 由 结构 数组 的 字段 名 
决定 ， 行 索引 默认 为 从 0 开始 的 整数 序列 。 


df1 = pd.DataFrame(np.random.randint(6，196，(4，2))，@D 


index=["A”", 


TE en hl 
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SA 吕 罗 
oo wm whN om 


columns=["a", "b"]) 


© 


np.array([("item1", 1), ("item2", 2), ("item3", 3), ("item4", 4)], 
dtype=[("name", "106S"), ("count", int)]) 


pd.DataFrame(arr) © 


= 


df3 
name count 
8 iteml 和 4 
1 item2 2 
2 item3 1 
3 item4 4 


时 ， 字 典 中 的 每 个 值 与 一 行 对 应 。 当 字典 
引 值 由 第 二 层 字典 中 的 键 决定 。 
字典 中 缺失 的 数据 使 用 NaN 表示 : 


Ufctr sr [a T2031 Db" A500] 
B21 A 
df1 = pd.DataFrame.from dict(dict1, orient="index") 
df2 = pd.DataFrame.from dict(dict1, orient="columns") 
df3 = pd.DataFrame.from dict(dict2, orient="index") 
df4 = pd.DataFrame.from dict(dict2, orient="columns") 


dict2 


df1 df2 

(eb a 

J Wah A 半 
0 
和 23 


= {"a":{"A":1, 


df3 


wm 各 
oy 
js 


此 外 还 可 以 调用 以 from_ 开 头 的 类 方法 ， 将 特定 格式 的 数据 转换 成 DataFrame 对 象 。 
from_dict0 将 字典 转换 为 DataFrame 对 象 ， 其 orient 参数 可 以 指定 字典 键 对 应 的 方向 ， 默 认 值 为 
"columns", 表示 把 字典 的 键 转 换 为 列 索引 , 即 字典 中 的 每 个 值 与 一 列 对 应 。 而 orient 参 数 为 "index" 
字典 ， 即 字典 的 值 为 字典 时 ， 另 外 一 个 轴 的 索 
下 面 分 别 将 列表 字典 和 炭 套 字典 转换 为 DataFrame 对 象 。 堪 套 


se 


df4 

a b 
A 得 省 
B 2 nan 
C nan 4 


from_items0 将 “( 键 , 值 )” 序 列 转换 为 DataFrame 对 象 ， 其 中 “ 值 ”是 表示 一 维 数据 的 列表 、 


数组 或 Series 对 象 。 当 其 


items 
dfl = 
df2 = 


296 ， 


orient 参数 为 "index" 时 ， 需 要 通过 columns 指定 列 索引 。 


= dict1.items() 
pd.DataFrame.from items(items, orient="index", columns=["A", "B", "C"]) 


pd.DataFrame.from items(items, orient="columns") 


3. 将 DataFrame 对 象 转换 为 其 他 格式 的 数据 

to_did0 方 法 将 DataFrame 对 象 转换 为 字典 ， 它 的 orient 参数 决定 字典 元 素 的 类型 ， 
print df2.to_dict(orient="records") # 字 典 列表 

print df2.to_dict(orient="list") # 列 表 字典 

print df2.to_dict(orient="dict") # 柑 套 字 典 

bad bear 2 bs 

{'a': [1 2, 3]; bb [4; 5, 6]} 
和 


to_records0 方 法 可 以 将 DataFrame 对 象 转换 为 结构 数组 ， 若 其 index 参数 为 Tme( 默 认 值 )， 
则 其 返回 的 数组 中 包含 行 索 引 数 据 ; 


print df2.to_records().dtype 

print df2.to_records(index=False) .dtype 
de <ip ys Ca eid CD 1) 
| 


Pandas 还 提供 了 许多 全 局 函数 来 从 各 种 格式 的 文件 读 取 数据 , 而 各 种 以 to 开头 的 方法 可 以 
将 其 输出 到 文件 中 ， 关 于 文件 的 输入 输出 将 在 后 面 详细 介绍 。 
5.1.3 Index 对 象 

Index 对 象 保存 索引 标签 数据 ， 它 可 以 快速 找到 标签 对 应 的 整数 下 标 ， 这 种 将 标签 映射 到 
整数 下 标的 功能 与 Python 的 字典 类 似 。 其 values 属性 可 以 获得 保存 标签 的 数组 , 与 Series 一 样 ， 
字符 串 使 用 object 类 型 的 数组 保存 : 


index = df_soil.columns 
index.values 


array(['pH', 'Dens', "Ca'， 'Conduc', 'Date', 'Name'], dtype=object) 


Index 对 象 可 当 作 一 维 数组 ， 通 过 与 NumPy 数组 相同 的 下 标 操作 可 以 得 到 一 个 新 的 Index 
对 象 ， 但 是 Index 对 象 是 只 读 的 ， 因 此 一 旦 创建 就 无 法 修改 其 中 的 元 素 。 


print index[[1, 3]] 
print index[index > 'c'] 
print index[1::2] 
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Index([u'Dens', u'Conduc'], dtype="'object', name=u'Measures') 
Index([u'pH'], dtype="object', name=u'Measures') 
Index([u'Dens', u'Conduc', u'Name'], dtype="object', name=u'Measures') 


Index 对 象 也 具有 字典 的 映射 功能 ， 它 将 数组 中 的 值 映射 到 其 位 置 : 
@ ”Index.get_loc(value): 获得 单个 值 value 的 下 标 。 
@ ”Index.get_indexer(values):; 获得 一 组 值 values 的 下 标 ， 当 值 不 存在 时 ， 得 到 -1。 


print index.get_ loc('Ca') 

print index.get_indexer(['Dens', ‘Conduc', 'nothing']) 
2 

[1 3 -1] 


可 以 直接 调用 Index0 来 创建 Index 对 象 ， 然 后 传递 给 DataFrame0 的 index 或 columns 参数 。 
由 于 Index 是 不 可 变 对 象 ， 因 此 多 个 数据 对 象 的 索引 可 以 是 同一 个 Index 对 象 。 


index = pd.Index(["A", "B", "C", "D", "E"], name="level") 

s1 = pd.Series([1, 2, 3, 4, 5], index=index) 

df1 = pd.DataFrame({"a":[1, 2, 3, 4, 5], "b":[6, 7, 8, 9, 10]}, index=index) 
print s1.index is df1.index 


True 


5.1.4 ”MultiiIndex 对 象 
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MultiIndex 表示 多 级 索引 ， 它 从 Index 继承 ， 其 中 的 多 级 标签 采用 元 组 对 象 来 表示 。 下 面 通 
过 [获取 其 中 的 单个 元 素 , 调用 getloc0 和 getindexer0 以 获取 单个 标签 和 多 个 标签 对 应 的 下 标 。 


mindex = df_soil.index 

print mindex[1] 

print mindex.get_loc(("0-16", "Slope")) 

print mindex.get_indexer([("10-36", "Top"), ("6-10", "Depression"), "nothing"]) 
('0-10', 'Slope') 

出 

[5 6 -1] 


在 Multilndex 内 部 并 不 直接 保存 元 组 对 象 , 而 是 使 用 多 个 Index 对 象 保存 索引 中 每 级 的 标签 ; 


print mindex.levels[6] 
print mindex.levels[1] 
Index([u'6-18' ，u "16-36' ]，dtype='object' ，name=u "Depth ' ) 


Index([u'Depression', u'Slope', u'Top'], dtype="object', name=u'Contour') 


然后 使 用 多 个 整数 数组 保存 这 些 标签 的 下 标 : 


print mindex.labels[6] 
print mindex.labels[1] 
FrozenNDArray([6，6，6，1，1，1]，dtype='int8 ') 
FrozenNDArray([6，1，2，6，1，2]，dtype='int8 ') 


下 面 的 代码 通过 levels 和 labels 属性 得 到 多 级 索引 中 所 有 元 组 的 列表 ， 该 列表 也 可 以 通过 
tolist0 方 法 获得 : 


level8@, levell = mindex.levels 
label8, labell = mindex.labels 
zip(levele[label06], leveli[label1]) 
[('8-10', 'Depression’' )， 

('0-10', 'Slope'), 

0, Oo 

('10-30' ，'Depression'), 
('10-30','Slope'), 

('10-36', 'Top')] 


当 将 一 个 元 组 列表 传递 给 Index0 时 ， 将 自动 创建 MultiIndex 对 象 。 若 希望 创建 元 素 类 型 为 
元 组 的 Index 对 象 ， 可 以 设置 tupleize_cols 参数 为 False: 


pd.Index([("A”, "x"), ("A", "y"), ("B", "x"), ("B", "y")], name=["class1", "class2"]) 
MultiIndex(levels=[[u'A’, u'B’'], [u'x', u'y']], 

labels=[[0, 0, 1, 1], [8, 1, 0, 1]], 

names=[u'class1', u'class2']) 


此 外 可 以 使 用 以 from_ 开头 的 MultiIndex 类 方法 从 特定 的 数据 结构 创建 MultiIndex 对 象 。 例 
如 from_arrays0 方 法 从 多 个 数组 创建 MultiIndex 对 象 : 


Classi rs [A A BB 
2 
pd.MultiIndex.from arrays([class1, class2], names=["class1", "class2"]) 
MultiIndex(levels=[[u'A’', u'B’'], [u'x', u'y']], 
labels=[[0, 0, 1, 1], [9, 1, 6, 1]], 
names=[u'class1', u'class2']) 


from_product0 则 从 多 个 集合 的 笛 卡 尔 积 创建 Multiindex 对 象 。 下 面 的 程序 将 所 创建 的 
MultiIndex 对 象 传递 给 index 和 columns 参数 ， 所 创建 的 DataFrame 对 象 的 行 和 列 使 用 同一 个 多 
级 索引 对 象 : 

midx = pd.MultiIndex.from_product([["A"，"B"，"C"]，["x"，"y"]]， 


names=["class1", "class2"]) 
df1 = pd.DataFrame(np.random.randint(8@, 10, (6, 6)), columns=midx, index=midx) 
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df1 
class1 A B 
class2 SO 估 
class1 class2 
A x 37 
y 072 OO 2 
B x 3 .8.0 4 83 
y 有 雪人 
所 X 有 
y 075605 


5.1.5 ”常用 的 函数 参数 
在 后 续 章 节 我 们 会 详细 介绍 各 种 常用 函数 的 用 法 。 表 5-1 列 出 了 一 些 常用 的 函数 参数 。 


表 5-1 常用 的 函数 参数 
参数 名 说 明 
[or | agri 
level 阁 数 或 索引 的 级 别名 指定 运算 对 应 的 级 别 
fill_value 指定 运算 中 出 现 的 NaN 的 替代 填充 值 
skipna 运算 是 在 哎 过 NaN 
index 搬 定 行 索引 


1 
| 
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nomerie_ on 是 否 只 针对 数值 进行 运 和 
func 可 调用 对 象 
inplace 是 否 原 地 更 新 ， 阁 为 否 ， 则 返回 新 对 银 


dropna 布尔 什 是 否 删除 包含 NaN 的 行 
例如 mean0 函 数 计算 平均 值 ， 如 果 不 指定 axis 参数 ， 则 沿 着 第 0 轴 计算 每 列 的 平均 值 。 如 


果 指 定 axis 参数 为 1， 则 计算 每 行 的 平均 值 。 如 果 指 定 level 参数 ， 则 针对 多 级 索引 中 指定 级 别 
中 相同 标签 对 应 的 元 素 的 平均 值 ; 


l 定 回调 函数 


df_soil.mean() df_soil.mean(axis=1) df_soil.mean(level=1) 
Measures Depth Contour Measures pH Dens Ca Conduc 
pH 5.2 6-16 Depression 4.6 Contour 

Dens 2 Slope Ss2 0mmession Deal 2 9d FE 


Ca 1k Top 5.3 Slope 2 3 


Conduc 3 
dtype: float64 


16-36 


dtype: 


5.1.6 DataFrame 的 内 部 结构 


DataFrame 对 象 内 部 使 用 
为 了 帮助 读者 理解 Pandas 的 内 存 管理 ， 让 我 们 看 看 DataFrame 对 象 的 
下 面 的 程序 通过 本 书 提供 的 GraphvizDataFrame 绘 制 df_soil 的 内 部 结构 ,结果 
图 中 的 实 线 箭头 表示 一 般 属性 ， 虚 线 箭头 表示 上 
是 获得 它们 对 应 的 函数 的 返回 值 。 在 分 析 DataFrame 对 象 的 内 部 结构 时 ， 我 人 


区 的 问题 。 


头 所 表示 的 属性 。 


Depression 4.8 Top ET » 
Slope LT 
Top 5 
float64 
NumpPy 数组 保存 数据 ， 因 此 也 会 出 现 和 数组 相同 的 共享 数据 存储 


from scpy2.common import GraphvizDataFrame 
%dot GraphvizDataFrame.graphviz(df_soil) 


ndarray 


values/” 


pd EU PyObjectHashTable 
shape mappog 


J 部 结构 。 
图 5-2 所 示 。 


property 创建 的 属性 ， 读 取 这 些 属性 时 实际 上 


w ndarray 
Es AR ObjectEngine 
i FrozenNDArray i 2 
Multiindex | be ee y en 
/ vel P| FrozenNDArray| ”ane 一 一 
/ ~ -一 一 :一 
/ ~ A 
/ 围 一 让 
/ 一 上 二- 各 
/ Index ~ 
Index/ 
/ ObjectEngine 
下 
并 
4 ndarray 
/ vaues 
/ ee 
/ 3 
/ FloatBlock | —-—-: Re 
/ Index | 
/ 有 一 一 
/soumns 一 
/ 网 ndarray patetmeBlock| ee 可 ndaray 
DataFrame i 了 | 本 玉 es 
2 Ce ce 
~、 
i x 
shape DataFrame ObjectBlock | 一 一 “ees yl ndarray 


国 Daona 


图 52 DataFrame 对 象 的 内 部 结构 
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DataFrame 对 象 的 columns 属性 是 Index 对 象 , 而 index 属性 是 表示 多 级 索引 的 MultiIndex 对 
象 。Index 对 象 的 索引 功能 由 其 _engine 属性 个 ObjectEngine 对 象 提供 ， 该 对 象 使 用 一 个 哈 
希 表 PyObjectHashTable 对 象 将 标签 映射 到 与 其 对 应 的 整数 下 标 。 下 面 的 代码 获取 列 标签 "Date" 
对 应 的 整数 下 标 : 


df_soil.columns._engine.mapping.get_item("Date") 
4 


DataFrame 对 象 的 数据 都 保存 在 _data 属性 中 ， 它 是 一 个 BlockManager 对 象 ， blocks 属性 
是 一 个 列表 ， 其 中 有 一 个 FloatBlock 对 象 、 一 个 DatetimeBlock 对 象 和 一 个 ObjectBlock 对 象 。 这 
些 对 象 是 管理 实际 数据 的 数据 块 ， 其 values 属性 是 保存 数据 的 数组 。 

DataFrame 对 象 尽量 用 一 个 数组 保存 相同 类 型 的 列 ， 而 将 不 同类 型 的 列 保存 在 不 同 的 数组 
中 。 这 些 数 组 的 形状 为 4, 6、(1, 9 和 (1, 6)。 它 们 的 第 0 轴 的 长 度 对 应 4 个 浮 点 数列 、1 个 时 间 
列 和 1 个 字符 串 列 。 由 此 可 知 DataFrame 中 的 整 列 数据 是 保存 在 连续 的 内 存 空间 中 ， 这 有 助 于 
提高 数据 的 存 取 速度 。 

当 通 过 [0 获取 某 一 列 时 ， 所 得 到 的 Series 对 象 与 原 DataFrame 对 象 共享 内 存 。 下 面 查看 保存 
Series 对 象 数 据 的 数组 的 base 属性 ， 也 就 是 df_soil._data.blocks[0].values: 


s = df_soil["Dens"] 
Ss.values.base is df _ soil. data.blocks[8].values 


True 


当 通 过 [0 获取 多 列 时 ， 将 复制 所 有 的 数据 ， 因 此 保存 新 DataFrame 对 象 数据 的 数组 的 base 
属性 为 None: 


print df_soil[["Dens"]]._data.blocks[8] .values.base 


None 


如 果 DataFrame 对 象 只 有 一 个 数据 块 ， 则 通过 values 属性 得 到 的 数组 是 数据 块 中 数组 的 转 
置 ， 因 此 它 与 DataFrame 对 象 共享 内 存 。 例 如 在 下 面 的 程序 中 ，df float 中 所 有 列 的 元 素 类 型 相 
同 ， 它 只 有 一 个 数据 块 ， 因 此 df_float.values 所 得 到 的 数组 与 df_float 中 保存 数据 的 数组 共享 内 

df float = df_soil[['pH', 'Dens', 'Ca', 'Conduc']] 

df_float.values.base is df float._data.blocks[6].values 


True 


当 DataFrame 对象 只 有 一 个 数据 块 时 ,获取 其 行 数据 所 得 到 的 Series 对象 也 与 其 共享 内 存 : 


df float.loc["9-16"， "Top"].values.base is df float. data.blocks[8].values 


True 


而 当 BlockManager 中 使 


因为 它 需要 同时 保存 浮 点 数 、 


df_soil.values.dtype 
dtype('0') 


多 个 数组 保存 数据 时 , 则 返回 这 些 数据 的 拷贝 , 数组 的 元 素 类 型 


的 元 素 类 型 , 以 保存 各 种 格式 的 数据 ,在 下 面 的 例子 中 , df.values 的 元 素 类 型 为 object， 


时 间 和 字符 串 。 


5.2 下 标 存 取 


会 与 本 节 内 容 对 应 的 Notebook 为 : 05-pandas/pandas-200-getsetipynb。 


Series 和 DataFrame 提供 了 丰富 的 下 标 存 取 方 法 ， 除 了 直接 使 用 0 运算 符 之 外 ， 还 可 以 使 


用 .loc]、jiloc0、.at]、.iat0 和 .ix[] 等 存 取 器 存 取 其 中 的 元 素 。 


下 面 的 表 5-2 总 结 了 DataFrame 对 象 的 各 种 存 取 方 法 : 


方法 
col_label 
col labels 
row_slice, 
row_bool_arra' 
.get(col_label, default 
.atlindex_label, col_label 


表 5-2 DataFrame 对 象 的 各 种 存 取 方法 
说 明 
以 单个 标签 作为 下 标 ， 获 取 与 标签 对 应 的 列 ， 返 回 Series 对 象 
以 标签 列表 作为 下 标 ， 获 取 对 应 的 多 个 列 ， 返 回 DataFrame 对 象 
整数 切片 或 标签 切片 ， 得 到 指定 范围 之 内 的 行 
选择 布尔 数组 中 Tme 对 应 的 行 
与 字典 的 get0 方 法 的 用 法 相同 


选择 行 标签 和 列 标签 对 应 的 值 ， 返 回 单个 元 素 


‘iatlindex, col] 选择 行 编号 和 列 编号 对 应 的 值 ， 返 回 单个 元 素 

‘loclindex, col] 通过 单个 标签 值 、 标 签 列表 、 标 签 数组 、 布 尔 数组 、 标 签 切片 等 选择 指 
定 行 与 列 上 的 数据 

,iloc[index, col] 通过 单个 整数 值 、 整 数列 表 、 整 数 数组 、 布 尔 数组 、 整 数 切片 选择 指定 
行 与 列 上 的 数据 

.jx[index,col 同时 拥有 .Joc0 和 .ioc0 的 功能 ， 既 可 以 使 用 标签 下 标 也 可 以 使 用 整数 下 标 


‘lookup(row_labels, col_labels) 


选择 行 标签 列表 与 列 标签 列表 中 每 对 标签 对 应 的 元 素 值 


.BELvalue(ow_label col_Jabel) 


与 .的 功能 类 似 ， 不 过 速度 更 快 


.query0 通过 表达 式 选 择 满足 条 件 的 行 
.head0 获取 头 部 N 行 数据 
-ail0 获取 尾部 NN 行 数据 
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np.random.seed(42) 

df = pd.DataFrame(np.random.randint (6, 16, (5, 3)), 
index=["r1", Me FF377 "rn4", i 

columns=["c1", "c2", "c3"]) 


5.2.1 [操作 符 


通过 [操作 符 对 DataFrame 对 象 进行 存 取 时 ， 支 持 以 下 5 种 下 标 对 象 : 

e 单个 索引 标签 :获取 标签 对 应 的 列 ， 返 回 一 个 Series 对 象 。 

e 多 个 索引 标签 : 获取 以 列表 、 数 组 (注意 不 能 是 元 组 ) 表 示 的 多 个 标签 对 应 的 列 ， 返 回 一 
个 DataFrame 对 象 。 

整数 切片 ， 以 整数 下 标 获取 切片 对 应 的 行 。 

标签 切片 : 当 使 用 标签 作为 切片 时 包含 终 值 。 

布尔 数组 : 获取 数组 中 True 对 应 的 行 。 

布尔 DataFrame: 将 DataFrame 对 象 中 False 对 应 的 元 素 设置 为 NaN。 

F 面 显示 整数 切片 和 标签 切片 的 结果 ， 注 意 标 签 切片 包含 终 值 "4": 


df df[2:4] df["r2":"r4"] 
Ch CE x A 
(ey/ [cy | Pe “6 9 
| P37 (2 
py ¢ | 
Lo 着 y。 
i 


df.cl >4 是 一 个 布尔 序列 ， 因此 dfldf.cl > 包 获 得 该 序列 中 Tme 对 应 的 行 。 df>2 是 一 个 布尔 
DataFrame 对 象 ，df[df >2] 将 其 中 False 对 应 的 元 素 置 换 为 NaN: 


df[df.c1 > 4] df[df > 2] 


ra 4 3 
号 7 nan 


5.2.2 .lodl] 和 .iloc[ 存 取 器 


Joc0 的 下 标 对象 是 一 个 元 组 ， 其 中 的 两 个 元 素 分 别 与 DataFrame 的 两 个 轴 相 对 应 。 若 下 标 
不 是 元 组 , 则 该 下 标 对 应 第 0 轴 , :对 应 第 1 轴 。 每 个 轴 的 下 标 对 象 都 支持 单个 标签 、 标签 列表 、 


标签 切片 以 及 布尔 数组 。 
dfloc["2"] 获 得 "2" 对 应 的 行 , 它 返回 一 个 Series 对 象 。dfloc["r2", "c2"] 获 得 "2" 行 "c2" 列 的 元 
素 ， 它 返回 单个 元 素 值 。 


df.loc["r2"] loci re2 Cc2°] 
cl 4 6 
2 6 
£3 9 


Name: r2, dtype: int32 


df.Jloc[["72","r3"] 获 得 "rt2" 和 "3" 对 应 的 行 。df.loc[["r2","3]["e1","c2 叫 则 获得 "r2" 和 "r3" 行 、 
"cl" 和 "c2" 列 上 的 数据 ， 所 得 到 的 数据 都 是 新 的 DataFrame 对 象 。 


dfsloclt ra 33 Toot ra pail er casi 


CE CE 
5 nS 
3 下 


在 下 面 的 程序 中 ， 第 0 轴 的 下 标 分 别 为 标签 切片 和 布尔 数 序列 : 


Lo i of Bd nr rh bo | eo tk | dfslooldf rma Eri C27 


站 i ce2 
2 FP 
| r2 4 6 
人 r4 4 3 
a 


jloc] 和 loc[] 类 似 ， 不 过 它 使 用 整数 下 标 ; 


df.iloc[2] df.iloc[[2,4]] df.iloc[[1,3]] df.iloc[[1,3],[8,2]] 
cl 2 EEC 2 人 娄 因 和 0 入 KE 

C2 6 下 LS A | 

C3 7 ey a OA 


Name: r3, dtype: int32 


df.iloc[2:4, [8,2]] df.iloc[df.c1.values>2, [8,1]] 
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此 外 .ix[0 的 存 取 器 可 以 混用 标签 和 位 置 下 标 ， 例 如 : 


xs "£3"]] dx ri ra [or 21] 


EC 【os RC) 
Le ek 0 
r4 4 7 了 
村 


如 果 DataFrame 对 象 有 整数 索引 ， 则 应 该 使 用 Joc0 和 ,iloc[ 以 避免 混淆 。 
5.2.3 ”获取 单个 值 

at] 和 .at 分别 使 用 标签 和 整数 下 标 获取 单个 值 ， 此 外 getvalue0 与 a 册 类似， 不 过 其 执行 
速度 要 快 一 些 : 


dtmth ra cl frdatlis 4) Ufvaet-valuet re “C2 


当 Joc[] 的 下 标 对 象 是 两 个 标签 列表 时 ， 所 获得 的 是 这 两 个 列表 形成 的 网 格 上 的 元 素 ， 这 与 
NumPy 的 数组 下 标 操作 不 一 样 。 如 果 希 望 获取 两 个 列表 中 每 对 标签 所 对 应 的 元 素 ， 可 以 使 用 
lookup0， 它 返回 一 个 包含 指定 元 素 的 数组 : 

a el el 0 ed Bs a We et 

array([4, 3, 2]) 


5.2.4 ”多 级 标签 的 存 取 


Joc0] 和 .at 的 下 标 可 以 指定 多 级 索引 中 每 级 索引 上 的 标签 。 这 时 多 级 索引 轴 对 应 的 下 标 是 
-个 下 标 元 组 ， 该 元 组 中 的 每 个 元 素 与 索引 中 的 每 级 索引 对 应 。 若 下 标 不 是 元 组 ， 则 将 其 转换 
为 长 度 为 1 的 元 组 ， 若 元 组 的 长 度 比索 引 的 层 数 少 ， 则 在 其 后 面 补 slice(None)。 


soil df = pd.read_csv("data/Soils-simple.csv"，jindex_col=[6，1]，parse_dates=["Date"]) 


在 下 面 的 例子 中 ,"10-30" 为 第 0 轴 的 标签 ,根据 前 面 的 规则 ,将 其 转换 为 ("10-30", slice(None))， 
即 选择 第 0 级 中 "10-30" 对 应 的 行 : 


soil_ df.1oc["10-30", ["pH", "Ca"]] 


Contour 

Depression 4.9 7.5 
Slope S39 
Top .8 “10 


如 果 需 要 选择 第 1 级 中 "Top" 对 应 的 行 , 则 需要 把 sliceNone) 作 为 第 0 级 的 下 标 。 由 于 Python 
中 只 有 直接 在 [中 才能 使 用 以 :分 隔 的 切片 语法 , 因此 这 里 使 用 np.s_ 对 象 创建 第 0 轴 对 应 的 下 标 ; 
(slice(None), "Top")。 


soll- df>locInp.s Ey Top] [DECca | 


pH Ca 
Depth Contour 
@-10 Top 5.3 13 
169-36 Top 4.8 16 


5.2.5 query() 方 法 


当 需 要 根据 一 定 的 条 件 对 行进 行 过滤 时 ,通常 可 以 先 创建 一 个 布尔 数组 ,使 用 该 数组 获取 
True 对 应 的 行 ， 例 如 下 面 的 程序 获得 pH 值 大 于 5、Ca 含 量 小 于 11% 的 行 。 由 于 Python 中 无 法 
自 定义 not、and 和 or 等 关键 字 的 行为 ， 因 此 需要 改 用 ~、&、| 等 位 运算 符 。 然 而 这 些 运算 符 的 
优先 级 比比 较 运算 符 要 高 ， 因 此 需要 用 括号 将 比较 运算 括 起 来 ; 

soil df[(soil df.pH > 5) & (soil df.Ca < 11)] 


使 用 query0 可 以 简化 上 述 程 序 : 


print soil df.query("pH > 5 and Ca < 11") 

pH Dens Ca Conduc Date Name 
Depth Contour 
8-16 Depression 5.4 6.98 11 1.5 2615-65-26 ”Lois 
16-36 Slope | 4.9 2615-62-66 Diana 


query0 的 参数 是 一 个 运算 表达 式 字 符 串 。 其 中 可 以 使 用 not and 和 or 等 关键 字 进 行 向 量 布 
尔 运 算 ， 表 达 式 中 的 变量 名 表示 与 其 对 应 的 列 。 如 果 希 望 在 表达 式 中 使 用 其 他 全 局 或 局 域 变量 
的 值 ， 可 以 在 变量 名 之 前 添加 @， 例 如 : 

pH_low=5 

Ca hi = 11 

print soil df.query("pH > @pH_low and Ca < @Ca_hi") 


5.3 文件 的 输入 输出 


A 与 本 节 内 容 对 应 的 Notebook 为 : 05-pandas/pandas-300-iojipynb。 
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本 节 介 绍 表 5-3 中 的 输入 输出 函数 : 


表 5-3 输入 输出 函数 
函数 名 说 明 


read_csv0 | 从 CSV 格 式 的 文本 文件 读 取 数 据 


Tead_excel() | 从 Excel 文 件 读 入 数据 


HDFStoreO 使 用 HDF5 文 件 读 写 数据 


Tead_sql 从 SQL 数据 库 的 查询 结果 载 入 数据 


读 入 Pickle 序列 化 之 后 的 数据 


5.3.1 CSV 文件 

read_csv0 从 文本 文件 读 入 数据 ， 它 的 可 选 参数 非常 多 ， 下 面 只 简要 介绍 一 些 常 用 参数 

e sep 参数 指定 数据 的 分 隔 符号 ， 可 以 使 用 正则 表达 式 ， 默 认 值 为 逗号 。 有 时 CSV 文件 为 
了 便于 阅读 , 在 逗号 之 后 添加 了 一 些 空格 以 对 齐 每 列 的 数据 。 如 果 希 望 忽略 这 些 空格 ， 
可 以 将 skipinitialspace 参数 设置 为 True。 

e 如 果 数 据 使 用 空格 或 制 表 符 分 隔 ， 可 以 不 设置 sep 参数 ， 而 将 delim_whitespace 参数 设 
置 为 True。 

e 默认 情况 下 第 一 行文 本 被 作为 列 索引 标签 ， 如 果 数 据 文件 中 没有 保存 列 名 的 行 ， 可 以 
设置 header 参 数 为 0。 

e 如 果 数 据 文件 之 前 包含 一 些 说 明 行 ， 可 以 使 用 skiprows 参数 指定 数据 开始 的 行 号 。 

e@ na_values、true_values 和 false_values 等 参数 分 别 指定 NAN、Trme 和 False 对 应 的 字符 串 
列表 。 

e 如 果 希 望 从 字符 串 读 入 数据 ， 可 以 使 用 io.BytesIO(string) 将 字符 串 包装 成 输入 流 。 

ee 如果 希 望 将 字符 串 转换 为 时 间 ， 可 以 使 用 parse_dates 指定 转换 为 时 间 的 列 。 

e 如 果 数 据 中 包含 中 文 ， 可 以 使 用 encoding 参数 指定 文件 的 编码 ， 例 如 "utf-8"、"gbk" 等 。 
定编 码 之 后 得 到 的 字符 串 列 为 Unicode 字符 串 。 

e 可 以 使 用 usecols 参数 指定 需要 读 入 的 列 。 

e 当 文 件 很 大 时 ,可 以 用 chunksize 参 数 指定 一 次 读 入 的 行 数 。 当 使 用 chunksize 时 ,read_csv0 
返回 一 个 迭代 器 。 

e 当 文件 名 包含 中 文 时 ， 需 要 使 用 Unicode 字 符 串 指定 文件 名 。 


下 面 使 用 上 面 介绍 的 各 个 参数 读 入 上 海 市 的 空气 质量 数据 文件 。 该 文件 的 文字 编码 为 
UTEF-8, 并 且 带 BOM。 所谓 BOM, 是 指 在 文件 开头 的 3 个 特殊 字 节 表示 该 文件 为 UTF-8 文件 。 


对 于 带 BOM 的 UTF-8 文件 ， 可 以 指定 编码 参数 encoding 为 "utf-8-sig"。 


该 文件 中 有 两 种 字符 表示 缺失 数据 ; 一 个 是 减 号 ， 另 一 个 是 全 角 的 横 杜 。 由 于 read_csv0 
在 将 字 节 字符 串 转换 为 Unicode 之 前 判断 NaN， 因 此 需要 使 用 与 文件 相同 的 编码 表示 这 些 缺 失 


数据 的 字符 串 。 


© http://airepmap.org/ 
空气 质量 数据 来 源 : 青 悦 空气 质量 历史 数据 库 。 


df list = [] 


for df in pd.read_csv( 
u"data/aqi/ 上 海 市 _281486.csv"， 
encoding="utf-8-sig",# 文 件 编码 
chunksize=166， # 一 次 读 入 的 行 数 
Usecols=[u" 时 间 "，u" 监 测 点 "，"AQI"，"PM2.5"，"PM16"] ，# 只 读 入 这 些 列 
na_values=["-"，"-"]， ## 这 些 字符 串 表 示 缺 失 数据 
parse_dates=[6]): # 第 一 列 为 时 间 列 

df_list.append(df) # 在 这 里 处 理 数据 
df_list[86].count() df_list[6].dtypes 


时 间 166 时 间 datetime64[ns] 
监测 点 90 监测 点 object 
AQI 166 AQI int64 
PM2.5 166 PM2.5 int64 
PM16 98 PM16 float64 
dtype: int64 dtype: object 


注意 “时 间 ” 列 为 datetime64[ns] 类 型 ， 而 由 于 存在 缺失 数据 ， 因 此 “PM10” 列 被 转换 为 
浮 点 数 类 型 ， 其 他 的 数值 列 为 整数 类 型 ， 而 “监测 点 ” 列 中 保存 的 是 Unicode 字 符 串 。 


print type(df.loc[6，u" 监 测 点 "]) 
<type “unicode '> 


5.3.2 HDF5 文件 
HDF5 是 存储 科学 计算 数据 的 一 种 文件 格式 ， 支 持 大 于 2GB 的 文件 ， 可 以 把 它 看 作 针对 科 
学 计算 的 数据 库 文件 。 关 于 HDF5 文件 格式 的 更 多 信息 ， 请 参考 下 面 的 链接 : 


http:/www.nsmc.cma.gov.cn/FENGYUNCast/docs/HDFS.0_chinese.pdf 
中 文 的 HDF5 使 用 简介 。 


HDF5 文件 像 一 个 保存 数据 的 文件 系统 ， 其 中 只 有 两 种 类 型 的 对 象 : 资料 数据 (dataseD 和 目 
录 (group): 
e 资料 数据 : 像 文 件 系统 中 的 文件 一 样 用 于 保存 各 种 数据 ， 例 如 NumPy 数组 。 
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e 目录 : 类 似 于 文件 系统 中 的 文件 夹 ， 可 以 包含 其 他 的 目录 或 资料 数据 。 

使 用 Pandas 可 以 很 方便 地 将 多 个 Series 和 DataFrame 保存 进 HDF5 文件 。 HDF5 文件 采用 二 
进 制 格 式 保存 数据 ， 可 以 对 数据 进行 压缩 存储 ， 比 文本 文件 更 节省 空间 ， 存 取 也 更 迅速 。 
下 面 创建 一 个 HDFStore 对 象 ， 通 过 complib 参数 指定 使 用 blosc 压缩 数据 ， 通 过 complevel 
参数 指定 压缩 级 别 。 


store = pd.HDFStore("a.hdf5", complib="blosc", complevel=9) 
HDFStore 对 象 支持 字典 接口 ， 例 如 使 用 [ 存 取 元 素 、get0 和 keys0 等 方法 。 


df1 = pd.DataFrame(np.random.rand(166666，4)，columns=1ist("ABCD")) 

df2 = pd.DataFrame(np.random.randint(86，16666，(16668，3) )， 
columns=["One", "Two", "Three"]) 

s1 = pd.Series(np.random.rand(1666)) 

store[ "dataframes/df1"] = df1 

store[ "dataframes/df2"] = df2 

store[ "series/s1"] = s1 

print store.keys() 

print df1.equals(store["dataframes/df1"]) 

['/dataframes/df1', '/dataframes/df2', '/series/s1'] 

True 


HDFStore 采 用 pytables 扩展 库存 取 HDF5 文件 ， 其 get_node0 方 法 可 以 获得 pytables 中 定义 
的 Node 对 象 。 使 用 该 对 象 可 以 遍历 文件 中 的 所 有 节点 ， 关 于 Node 对 象 的 用 法 ， 请 读者 参考 
pytables 的 文档 : 


http://pytables.github.io/usersguide/libref/hierarchy_classes.html 
pytables 官方 文档 。 


下 面 用 get_node0 获 得 根 节点 ， 然 后 调用 _f_walknodes0 遍 历 其 包含 的 所 有 节点 。 由 结果 可 
知 ，HDFStore 中 的 Series 和 DataFrame 对 象 与 HDF5 的 目录 对 应 ， 目 录 中 通过 多 个 资料 数据 保 
存 具 体 的 数据 。 


root = store.get_node("//") 

for node in root. f walknodes(): 
print node 

/dataframes (Group) u'' 

/series (Group) u'' 

/dataframes/df1 (Group) u'’ 

/dataframes/df2 (Group) u'" 

/series/s1 (Group) uU 


/series/sl/index (CArray(1666, )，shuffle，blosc(9)) ” 
/series/s1/values (CArray(1666,)，shuffle，blosc(9)) 和 …“ 
/dataframes/df1/axis@ (CArray(4,), shuffle, blosc(9)) ”… 
/dataframes/df1/axis1 (CArray(166666, ) ，shuffle，blosc(9)) ” 
/dataframes/df1/block6_items (CArray(4,), shuffle, blosc(9)) "' 
/dataframes/df1/block® values (CArray(166668，4)，shuffle，blosc(9)) ” 
/dataframes/df2/axis@ (CArray(3,), shuffle, blosc(9)) ”… 
/dataframes/df2/axis1 (CArray(16666,)，shuffle，blosc(9)) …“ 
/dataframes/df2/block6_items (CArray(3,), shuffle, blosc(9)) "' 
/dataframes/df2/block® values (CArray(16666，3)，shuffle，blosc(9)) ”…“ 


通过 前 面 介绍 的 方法 将 DataFrame 对 象 保存 进 HDFStore 之 后 ， 无 法 再 为 其 追加 数据 。 在 数 
据 采 集 和 导入 大 量 CSV 文件 时 ， 我 们 通常 希望 能 不 断 地 往 同 一 DataFrame 中 添加 新 的 数据 。 可 


以 使 用 append0 方 


: 现 该 功能 。 


@append 参数 为 False 表示 将 覆盖 已 存在 的 数据 ， 如 果 指 定 键 值 不 存在 ， 可 省 略 该 参数 。@ 
将 dB 追加 到 指定 键 ， 因 此 读 取 该 键 将 得 到 一 个 长 度 为 100100 的 DataFrame 对 象 。 


store.append('dataframes/df_dynamic1', df1, append=False) © 
df3 = pd.DataFrame(np.random.rand(180, 4), columns=list("ABCD")) 
store.append( 'dataframes/df_dynamic1', df3) @ 
store[ 'dataframes/df dynamic1' ] .shape 


(186166，4) 


使 用 append0 将 创建 pytables 中 支持 索引 的 表格 (Table) 
作为 索引 。 通 过 select0 可 以 对 表格 进行 查询 以 获取 满足 查询 条 件 的 行 。 在 下 面 的 程序 中 ， 通 过 
where 参数 指定 查询 条 件 ，index 表示 DataFrame 的 标签 数据 。 该 条 件 获取 标签 在 97 到 102 之 间 
的 所 有 行 。 由 于 我 们 将 两 个 默认 标签 的 DataFrame 添加 进 该 表格 ， 因 此 98 和 99 各 对 应 两 行 数 
据 。 使 用 该 方式 读 取 部 分 数据 时 ， 可 以 减少 内 存 使 用 量 和 磁盘 读 取 量 ， 提 高 数据 的 访问 速度 。 


人 


和 节点， 默认 使 用 DataFrame 的 index 


print store.select('dataframes/df_dynamicl', where='index > 97 & index < 102') 


A 


B C D 


98 6.95 86.8672 8.78 6.18 
99 8.19 6.643 6.24 8.675 


166 9.21 
161 6.71 
98 68.658 
99 “9.47 


0.78 6.86 0.47 
0.87 6.63 0.74 
0.18 6.91 0.683 
8.81 6.71 8.59 


如 果 和 希望 对 DataFrame 的 指定 列 进行 索引 ， 可 以 在 


data_columns 指定 索引 列 ， 或 将 


设置 为 True 以 对 所 有 列 包 


于 


appendO 创 对 
索引 。 


新 的 表格 时 ， 通 过 


store.append( 'dataframes/df_dynamic1' ，df1，append=False，data_columns=["A"，"B"]) 
print store.select('dataframes/df_ dynamic1  ，where='A > 6.99 & B < 8.61') 
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A B C D 
3656 6.99 6.6618 86.67 0.47 
5691 1 6.664 6.43 0.15 
17671 1 6.6642 68.99 90.31 
41652 1 9.66681 8.9 9.32 
45367 1 6.6693 8.72 8.665 
67976 8.99 8.6696 8.93 68.79 
69678 1 6.6655 6.97 6.88 
87871 1 6.668 86.59 68.35 
94421 6.99 8.6649 0.36 8.9 


下 面 循环 读 入 datavaqi 路 径 之 下 的 所 有 CSV 文件 ， 并 将 数据 写 入 HDF5 文件 中 。 在 将 多 个 


-时 ， 需 要 注意 如 下 几 点 事项 ， 


。 HDF5 文件 不 支持 Unicode 字符 串 ， 因 此 需要 对 Unicode 字符 串 进行 编码 ， 转 换 为 字 节 


字符 串 。 在 本 例 中 直接 从 文 
指定 encoding 参数 。@ 但 是 


件 读 取 UTF-8 编码 的 字符 串 ， 因 此 在 读 入 CSV 文件 时 无 须 
由 于 文件 可 能 包含 UTF-8 的 BOM， 因 此 需要 先 读 入 文件 的 


头 三 个 字 节 并 与 BOM 比较 ， 这 样 才 能 保证 读 入 的 数据 中 与 第 一 列 对 应 的 标签 不 包含 


BOML。 


e 由 于 可 能 存在 缺失 数据 ， 因 
文件 中 的 每 列 数据 只 能 对 应 
型 为 浮 点 数 。 


此 读 入 的 数值 列 的 类 型 可 能 为 整数 和 浮 点 数 。 由 于 HDF5 
-种 类 型 ，@ 因 此 需要 使 用 dtype 参数 指定 这 些 数值 列 的 类 


。 瞻 需 要 为 HDF5 文件 中 的 字符 串 列 指定 最 大 长 度 , 否则 该 最 大 长 度 将 由 第 一 个 被 添加 进 


HDF5 文件 的 数据 对 象 决定 。 


由 于 所 有 从 CSV 文 件 读 入 DataFrame 对 象 的 行 索引 都 为 默认 值 ， 因 此 HDF5 文 件 中 数 


据 的 行 索引 并 不 是 唯一 的 。 


def read aqi files(fn_pattern): 
from glob import glob 
from os import path 


UTF8_BOM = b"\xEF\xBB\xBF" 


cols =“ 时 间 , 城 市 ,监测 点 ,质量 


量 等 级 ,AQIT,PM2.5,PM16,CO,NO2,03,SO2".split("，") 


float_dtypes = {col:float for col in "AQI,PM2.5,PM10,CO,NO2,03,S02".split(",")} 


names_map = {" 时 旧 


"监测 


"Time"， 


"Position", 


"质量 等 级 ":"Level"， 


"城市 ": "City"， 


"PS PM255 二 


for fn in glob(fn_pattern): 


with open(fn, "rb") as f: 
sig = f.read(3) © 
if sig != UTF8_ BOM: 


f.seek(0, 0) 


df = pd.read_csv(f, 


yield df 


parse_date 
na_values= 
Usecols=co. 


s=[6]， 
BS 
1s， 


dtype=float_dtypes) @ 
df.rename_axis(names_map，axis=1，jinplace=True) 
df.dropna(inplace=True) 


store = pd.HDFStore("data/aqi/aqi.hdf5", complib="blosc", complevel=9) 
string_size = {"City": 12, "Position": 30, "Level":12} 


for idx, df in enumerate(read aqi files(u"data/aqi/*.csv")): 
store.append('aqi', df, append=idx!=6, min itemsize=string_size, data_columns=True)®© 


St 


ore.close() 


下 面 打开 aqihdfs 文件 并 读 入 所 有 数据 : 


store = pd.HDFStore("data/aqi/aqi.hdf5") 


df aqi = store.select("aqi") 


pr 
33 


int len(df_aqi) 
7256 


下 面 只 读 取 PM2.5 值 大 于 500 的 行 : 


df_polluted = store.select("aqi", where="PM2 5 > 566") 
print len(df_polluted) 


87 


5.3.3 


读 写 数据 库 


to_sql0 可 以 将 数 


表示 与 数据 库 连接 的 


入 create_engine0， 并 调 


将 创 妈 


新 的 数据 库 文件 :; 


它 使 


SQLite 打 姑 


据 写 入 SQL 数据 库 ， 它 的 第 一 个 参数 为 数据 库 的 表 名 ， 第 二 个 参数 为 
Engine 对 象 ，Engine 在 sqlalchemy 库 中 定义 。 下 面 首先 从 sqlalchemy 中 载 


Ff 数据 库 文件 "data/aqi/aqi.db"。 当 该 文件 不 存在 时 ， 
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from sqlalchemy import create engine 
engine = create engine('sqlite:///data/aqi/aqi.db') 


为 了 避免 重复 写 入 ， 下 面 先 通过 engine 对 象 执行 SQL 语句 ， 删 除 aqi 表 : 


ys 

engine.execute("DROP TABLE aqi") 
except: 

pass 


然后 调用 to_sql0 将 数据 写 入 数据 库 , 让 exists 参数 为 "append" 表 示 当 表 存 在 时 ， 将 新 数据 添 
加 到 表 中 。 由 于 本 例 中 DataFrame 对 象 的 行 索引 无 实际 意义 ， 因 此 设置 index 参数 为 False， 表 
示 不 保存 行 索引 。 由 于 数据 库 要 求 使 用 Unicode 字符 串 ， 因 此 在 写 入 数据 库 之 前 对 字符 串 列 进 
行 解 码 ， 将 其 数据 转换 为 Unicode 字 符 串 。 如 果 在 从 CSV 文件 读 入 数据 时 ， 通 过 encoding 参数 
指定 了 文本 编码 ， 则 不 必 执 行 此 步骤 。 


str_cols = ["Position", "City", "Level"] 


for df in read aqi files("data/aqi/*.csv"): 
for col jn str_cols: 
df[col] = df[col].str.decode("utf8") 
df.to_sql("aqi", engine, if exists="append", index=False) 


下 面 调用 read_sql0 从 数据 库 读 入 整个 名 为 aqi 的 表 : 


df aqi = pd.read_sql("aqi", engine) 


也 可 以 通过 SQL 查询 语句 读 入 部 分 数据 ， 下 面 只 读 入 PM2.5 值 大 于 500 的 行 : 


df_polluted = pd.read_sql("select * from aqi where PM2 5 > 566"，engine) 
print len(df_polluted) 
87 


5.3.4 使 用 Pickle 序列 化 
还 可 以 使 用 to_pickle0 和 read_pickle0 对 DataFrame 对 象 进行 序列 化 和 反 序 列 化 : 


df_aqi.to_pickle("data/aqi/aqi.pickle") 
df _aqi2 = pd.read pickle("data/aqi/aqi.pickle") 
df_aqi.equals(df aqi2) 


True 


Pickle 是 Python 特有 的 对 象 序列 化 格式 , 因此 很 难 使 用 其 他 软件 、 程序 设计 语言 读 取 Pickle 
化 之 后 的 数据 ， 但 是 作为 临时 保存 运算 的 中 间 结 果 还 是 很 方便 的 。 


314 ， 


5.4 数值 运算 函数 


A 与 本 节 内 容 对 应 的 Notebook 为 : 05-pandas/pandas-400-calculation.ipynb。 


Series 和 DataFrame 对 象 都 支持 Numpy 的 数组 接口 ,因此 可 以 直接 使 用 NumPy 提供 的 ufunc 
函数 对 它们 进行 运算 。 此 外 它们 还 提供 各 种 运算 方法 ， 例 如 max0、min0、mean0、std0 等 。 这 
些 函数 都 有 如 下 三 个 常用 参数 : 

e axis: 指定 运算 对 应 的 轴 。 

e level: 指定 运算 对 应 的 索引 级 别 。 

e skipna: 运算 是 否 自 动 跳 过 NaN。 


print df_soil 

pH Dens Ca Conduc 
Depth Contour 
8-10 Depression 5.4 8.98 11 a 


Slope 1 2 
Top 5.3 11 1.4 
16-36 Depression 4.9 1.4 7.5 5.5 
Slope $3 309 4.9 
Top 4.8 1.3 19 3.6 


面 分 别 计算 每 列 的 平均 值 、 每 行 的 平均 值 以 及 行 索 引 的 第 1 级 别 Contour 中 每 个 等 高 线 
对 应 的 平均 值 : 


df_soil.mean() df_soil.mean(axis=1) df_soil.mean(level=1) 
pH 5.2 Depth Contour pH Dens Ca Conduc 
Dens 1.2 6-16 Depression 4.6 Contour 
Ca 11 Slope Sa rmessint DL Lg 3 
Conduc 演 Top 5.3 Slope Sd 3:5 
dtype: float64 16-36 Depression 4.8 Top ep 2 
Slope S33 
Top 学 


dtype: float64 


除了 支持 加 减 乘除 等 运算 符 之 外 ，Pandas 还 提供 了 add0、sub0、mul0、div0、mod0 等 与 
二 元 运算 符 对 应 的 函数 。 这 些 函 数 可 以 通过 axis、level 和 flL_value 等 参数 控制 其 运算 行为 。 在 
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下 面 的 例子 中 ， 


对 不 同 的 等 高 线 的 Ca 的 值 乘 上 不 同 的 系数 , f 亿 _value 参数 为 1 表示 对 于 不 存在 


的 值 或 NaN 使 


默认 值 1。 因 此 结果 中 ， 所 有 Depression 对 应 的 值 为 原来 的 09 倍 ，Slope 对 应 


的 值 为 原来 的 


2 倍 ， 而 Top 对 应 的 值 保 持 不 变 。 


s = pd.Series(dict(Depression=8.9，Slope=1.2)) 
df_soil.Ca.mul(s, level=1, fill value=1) 


Depth Contour 


8-16 Depression 9.6 


Slope ws 
Top 2 
16-36 Depression 6.8 
Slope 1 
Top 16 


dtype: float64 


Pandas 还 提供 了 rolling_*0 函 数 来 对 序列 中 相 邻 的 N 个 元 素 进 行 移动 窗口 运算 。 例 如 可 以 
使 用 rolling_median0 实 现 中 值 滤波 ,使 用 rolling_mean0 计 算 移动 平均 。 图 5-3 显示 了 使 用 这 两 个 


函数 对 带 脉 冲 噪声 的 正弦 波 进行 处 理 的 结 


果 。 它 们 的 第 二 个 参数 为 窗口 包含 的 元 素 个 数 ， 而 


center 参数 为 True 表示 移动 窗口 以 当前 元 素 为 中 心 。 
由 于 rolling_median0 采 用 了 更 高 效 的 算法 ， 因 此 当 窗 口 很 大 时 它 的 运算 速度 比 SciPy 章节 
中 介绍 过 的 signal.order_filter0 更 快 。 


t = np.linspace(0, 10, 460) 
x = np.sin(@.5*2*np.pi*t) 


x[np.random.randint(8, len(t), 46)] += np.random.normal(80, 8.3, 46) 


s = pd.Series(x, index=t) 


s_mean = pd.rolling mean(s, 5, center=True) 


s_median = pd.rolling median(s, 5, center=True) 


一 ”噪声 信号 。 一 中 值 滤波 一， 移动 平均 


图 5-3 中 值 滤波 和 移动 平均 


expanding_*(0 函 数 对 序列 进行 扩展 窗口 运算 ， 例 如 expanding_max0 返 回 到 每 个 元 素 为 止 的 
历史 最 大 值 。 图 54 显示 了 expanding_max0、expanding_mean0 和 expanding_min0 的 运算 结果 。 


2 请 读者 思考 如 何 使 用 NumPy 提供 的 ufunc 函数 计算 图 54 中 的 三 条 曲线 。 


np.random. seed(42) 

x = np.cumsum(np.random.randn(466)) 
x_max = pd.expanding_max(x) 

x_min = pd.expanding min(x) 

x_mean = pd.expanding_mean(x) 


1s QO 
-一 expanding mean 
10H — expanding max -一 expanding min 


图 5-4 用 expanding * 计 算 历史 最 大 值 、 平 均值 、 最 小 值 


字符 串 处 理 


A 与 本 节 内 容 对 应 的 Notebook 为 : 05-pandas/pandas-500-string.ipynb。 


Series 对 象 提供 了 大 量 的 字符 串 处 理 方法 ， 由 于 数量 众多 ， 因 此 Pandas 使 用 了 一 个 类 似 名 
称 空间 的 对 象 str 来 包装 这 些 字符 串 相 关 的 方法 。 例 如 下 面 的 程序 调用 str.upper0 将 序列 中 的 所 
有 字母 都 转换 为 大 写 : 


s_abc = pd.Series(["a", "b", "c"]) 
print s abc.str.upper() 

@ A 

ys B 
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符 


2 六 
dtype: object 


Python 中 包含 两 种 字符 串 : 字 节 字符 串 和 Unicode 字符 串 。 通 过 strdecode0 可 以 将 字 节 字 
按照 指定 的 编码 解码 为 Unicode 字符 串 。 例 如 在 UTF-8 编码 中 ， 一 个 汉字 占用 三 个 字符 ， 


串 的 序列 之 后 ， 其 各 个 元 素 的 长 度 为 实际 的 文字 个 数 。strencode0 可 以 把 Unicode 字 符 串 
定 的 编码 转换 为 字 节 字符 串 ， 在 常用 的 汉字 编码 GB2312 中 ， 一 个 汉字 占用 两 个 字 节 ， 因 此 


E 下 面 的 s_utf8 中 的 字符 串 长 度 分 别 为 6、9、12。 当 调用 str.decode0 将 其 转换 为 Unicode 字符 
按照 指 


s_gb2312 的 元 素 长 度 分 别 为 4、6、8。 


s_utf8 = pd.Series([b" 北 京 "，b" 北 京 市 "，b" 北 京 地 区 "]) 
s_unicode = s_utf8.str.decode("utf-8") 

s_gb2312 = s_unicode.str.encode("gb2312") 
s_utf8.str.len() s_unicode.str.len() s_gb2312.str.len() 


9 6 9 4 8 4 
于 全 活 和 6 
2 I 2 4 8 
dtype: int64 dtype: int64 dtype: int64 


无 论 Series 对 象 包含 哪 种 字符 串 对 象 ， 其 dtype 属性 都 是 object， 因 此 无 法 根据 它 判断 字符 


串 类 型 。 在 处 理 文本 数据 时 ， 需 要 格外 注意 字符 串 的 类 型 。 


可 以 对 str 使 用 整数 或 切片 下 标 ， 相 当 于 对 Series 对 象 中 的 每 个 元 素 进 行 下 标 运算 ， 例 如 ， 


print s_unicode.str[:2] 


Ci | 
1 北京 
yw 


dtype: object 
字符 串 序列 与 字符 串 一 样 ， 支 持 加 法 和 乘法 运算 ， 例 如 : 


print s unicode + u"-" + Sabc * 2 
8 ”北京 -aa 

1 上 京 市 -bb 

2 北京 地 区 -cc 

dtype: object 


也 可 以 使 用 str.cat0 连 接 两 个 字符 串 序列 的 对 应 元 素 : 


print s_unicode.str.cat(s abc, sep="-") 


9 北京 -a 
于 北京 市 -b 


2 北京 地 区 -c 
dtype: object 


调用 astype0 方 法 可 以 对 Series 对象 中 的 所 有 元 素 进行 类 型 转换 , 例如 下 面 将 整数 序列 转换 
为 字符 串 序列 : 


print s_unicode.str.len().astype(unicode) 


0 2 
Ta 
2 


dtype: object 


str 中 的 有 些 方法 可 以 对 元 素 类 型 为 列表 的 Series 对 象 进行 处 理 , 例如 下 面 调 用 str.split0 将 s 
中 的 每 个 字符 串 使 用 字符 "" 分 隔 , 所 得 到 的 结果 s_list 的 元 素 类 型 为 列表 。 然 后 调用 它 的 strjoin0 
方法 以 逗号 连接 每 个 列表 中 的 元 素 : 


s = pd.Series(["albc|de", "x|xyz|yz"]) 
slist = s.str,split("|") 
s_comma = s_list.str.join(",") 


Ss slist S_comma 


9 albclde 8 [a, bc, de] 8 a,bc,de 
1 xboyzlyR 1 BR ,oe 
dtype: object dtype: object dtype: object 


对 字符 串 序列 进行 处 理 时 ， 经 常会 得 到 元 素 类 型 为 列表 的 序列 。Pandas 没有 提供 处 理 这 种 
序列 的 方法 ， 不 过 可 以 通过 st 获取 其 中 的 元 素 : 


s_list.str[1] 


和 xyz 
dtype: object 


或 者 先 将 其 转换 为 嵌 套 列表 ， 然 后 再 转换 为 DataFrame 对 象 : 


print pd.DataFrame(s_list.tolist(), columns=["A", "B", "C"]) 


A fn 
gan be 
EE: 


Pandas 还 提供 了 一 些 正则 表达 式 相关 的 方法 。 例 如 使 用 其 中 的 str.extract0 可 以 从 字符 串 序 
列 中 抽取 出 需要 的 部 分 ， 得 到 DataFrame 对 象 。 下 面 的 例子 中 ，df_extractl 对 应 的 正则 表达 式 包 
含 三 个 未 命名 的 组 ， 因 此 其 结果 包含 三 个 自动 命名 的 列 。 而 df_extract2 对 应 的 正则 表达 式 包 含 
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两 个 命名 组 ， 因 此 其 列 名 为 组 名 。 


df_extract1 = s.str.extract(r"(\wr)\|(\Ww)\|(\Ww)") 
df_extract2 = s.str.extract(r"(?P<A>Nwr)\|(?P<B>Nwr)|") 
df extract1 df extract2 

9 "Py A B 
ea bc de6a bc 
VE 


在 处 理 数据 时 ， 经 常会 遇 到 这 种 以 特定 分 隔 符 分 隔 关键 字 的 数据 ， 例 如 下 面 的 数据 可 以 用 
于 表示 有 向 图 ， 其 第 一 列 为 边 的 起 点 、 第 二 列 为 以 "分隔 的 多 个 终点 。 下 面 使 用 read_csv0 读 入 
该 数据 ， 得 到 一 个 两 列 的 DataFrame 对 象 : 


import io 

text = """A, BICID 
B, EIF 

ERA 

D，B|C 


df = pd.read_csv(io.BytesIO(text)，skipinitialspace=True，header=None) 
print df 
9 2 
A BlclD 
B ElF 
A 
Blc 


w N Ph @ 


C 
D 
可 以 使 用 下 面 的 程序 将 上 述 数据 转换 为 每 行 对 应 一 条 边 的 数据 。@nodes 是 一 个 元 素 类 型 
为 列表 的 Series 对 象 。@ 调 用 Numpy 数组 的 repeat0 方 法 将 第 一 列 数据 重复 相应 的 次 数 。 由 于 
repeat0 只 能 接受 32 位 整数 ， 而 strlen0 返 回 的 是 64 位 整数 ， 因 此 还 需要 进行 类 型 转换 。@ 将 柑 
套 列表 平坦 化 ， 转 换 为 一 维 数组 。 
nodes = df[1].str.split("|") © 


from node = df[8].values.repeat(nodes.str.len().astype(np.int32)) ©@ 


to_node = np.concatenate(nodes) © 


print pd.DataFrame({"from node":from node, "to_ node":to node}) 


from node to_node 


9 A B 
A SC 
2 A D 
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还 可 以 把 原始 数据 的 第 二 列 看 作 第 一 列 数据 的 标签 ， 为 了 后 续 的 数据 分 析 ， 通 常 使 


= 有 


A "mH 


str.get_dummies0 将 这 种 数据 转换 为 布尔 DataFrame 对 象 ， 每 一 列 与 一 个 标签 对 应 ， 元 素 值 为 1 
表示 对 应 的 行 包含 对 应 的 标签 : 


print df[1].str.get_dummies(sep="|") 


A 


wpPO 
Q@ haeae 


B 


Ph @ e@ Ph 


次 


POoOPp 


D 


Q@e@e@e Ph 


3 


Q@ ae h ae m 
©OPp 


© 


当 字符 串 操作 很 难 用 向 量化 的 字符 串 方法 表示 时 ， 可 以 使 用 map0 函 数 ， 将 针对 每 个 元 素 
运算 的 函数 运用 到 整个 序列 之 上 : 


df[1].map(lambda s:max(s.split("|"))) 


9 
下 
2 
3 


D 
F 
A 
5 


Name: 1，dtype: object 


当 用 字符 串 序列 表示 分 类 信息 时 ， 其 中 会 有 大 量 相同 的 字符 串 ， 将 其 转换 为 分 类 (Category) 
序列 可 以 节省 内 存 、 提 高 运算 效率 。 例如 在 下 面 的 df_soil 对 象 中 ，Contour、Depth 和 Gp 列 都 是 
表示 分 类 的 数据 ， 因 此 有 许多 重复 的 字符 串 。 


df_soil = pd.read_csv("Soils.csv", usecols=[2, 3, 4, 6]) 
print df_soil.dtypes 


Contour 


Depth 


Gp 
pH 


object 
object 
object 


float64 
dtype: object 


下 面 循环 调 


for col jn [" 


astype("category") 将 这 三 列 转换 为 分 类 列 : 


"Contour", "Depth", "Gp"]: 


df_soil[col] = df _soil[col].astype("category") 


print df_soi 


.dtypes 
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Contour category 


Depth category 
Gp category 
pH float64 


dtype: object 


与 名 称 空间 对 象 str 类 似 , 元素 类 型 为 category 的 Series 对 象 提 供 了 名 称 空间 对 象 cat, 其 中 
保存 了 与 分 类 序列 相关 的 各 种 属性 和 方法 。 例 如 cat.categories 是 保存 所 有 分 类 的 Index 对 象 ; 


Gp = df_soil.Gp 

print Gp.cat.categories 

TOBX(CE DO SU DE D3 DO UL 3 0 TS 
UT MT 
dtype='object ') 


而 cat.codes 则 是 保存 下 标的 整数 序列 ， 元 素 类 型 为 ntg， 因 此 一 个 元 素 用 一 个 字 节 表示 。 


册 溯 阅 请 演 下 负 过 -Sepued 


Gp.head(5) Gp.cat.codes.head(5) 
9 To 8 8 
To 3 8 
To 2 8 
3 To 3 8 
4 a 4 学 
Name: Gp，dtype: category dtype: int8 


Categories (12, object): [D8@, D1, D3, ..., T1, T3, T6] 


分 类 数据 有 无 序 和 有 序 两 种 ， 无 序 分 类 中 的 不 同 分 类 无 法 比较 大 小 ， 例 如 性 别 ， 有 序 分 类 
则 可 以 比较 大 小 ， 例 如 年 龄 段 。 上 面 创建 的 三 个 分 类 列 为 无 序 分 类 ， 可 以 通过 catas_ordered0 
和 catas_unordered0 在 这 两 种 分 类 之 间 相 互 转换 。 下 面 的 程序 通过 catas_ordred0 将 深度 分 类 列 转 
换 为 有 序 分 类 ， 注 意 最 后 一 行 分 类 名 之 间 使 用 “<” 连 接 ， 表 示 是 有 序 分 类 。 


depth = df_soil.Depth 
depth.cat.as_ordered().head() 


16-36 
dtype: category 
Categories (4, object): [6-16 < 19-36“ 369-66《“ 66-96] 


如 果 需 要 自 定 义 分 类 中 的 顺序 ， 可 以 使 用 catreorder_categories0 指 定 分 类 的 顺序 : 


contour = df_soil.Contour 
categories = ["Top", "Slope", "Depression"] 
contour .cat.reorder_categories(categories, ordered=True).head() 


Top 
dtype: category 
Categories (3, object): [Top < Slope < Depression] 


5.5 时间 序列 


会 与 本 节 内 容 对 应 的 Notebook 为 : 05-pandas/pandas-600-datetime.ipynb。 


Pandas 提供 了 表示 时 间 点 、 时 间 段 和 时 间 间 隔 等 三 种 与 时 间 有 关 的 类 型 ， 以 及 元 素 为 这 些 
类 型 的 索引 对 象 ， 并 提供 了 许多 时 间 序 列 相关 的 函数 。 本 节 简 要 介绍 一 些 与 时 间 相 关 的 对 象 和 
函数 。 在 本 章 最 后 一 节 还 会 介绍 一 些 相关 的 实例 。 


5.5.1 时间 点 、 时 间 段 、 时 间 间 隔 


Timestamp 对 象 从 Python 标准 库 中 的 datetime 类 继承 ， 表 示 时 间 轴 上 的 一 个 时 刻 。 它 提供 
了 方便 的 时 区 转换 功能 。 下 面 调用 Timestamp.now0 获 取 当 前 时 间 now， 它 是 不 包含 时 区 信息 的 
本 地 时 间 。 调 用 其 tz_localize0 可 以 得 到 指定 时 区 的 Timestamp 对 象 。 而 带 时 区 信息 的 Timestamp 
对 象 可 以 通过 其 tz_convert0 转 换 时 区 。 下 面 的 now_shanghai 的 时 间 以 "+08:00" 结 尾 , 表示 它 是 东 
八 区 的 时 间 ， 将 其 转换 为 东京 时 间 得 到 now_tokyo， 它 是 东 九 区 的 时 间 : 


now = pd.Timestamp.now() 

now_shanghai = now.tz_localize("Asia/Shanghai") 
now_tokyo = now_shanghai.tz_convert("Asia/Tokyo") 
print u" 本 地 时 间 :"，now 

print u" 上 海 时 区 :"，now_shanghai 

print "东京 时 区 :"，now_tokyo 

本 地 时 间 : 2815-87-25 11:56:46.264666 

上 海 时 区 : 2815-87-25 11:56:46.264666+68:66 

东京 时 区 : 2815-87-25 12:56:46.264666+69:68 


区 
区 
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不 同时 区 的 时 间 可 以 比较 ， 而 本 地 时 间 和 时 区 时 间 无 法 比较 : 


now_shanghai == now_tokyo 
True 


过 


通过 pytz 模块 的 common_timezones0 可 以 获得 常用 的 表示 时 区 的 字符 呈 


import pytz 

pytz.common_timezones 

['Africa/Abidjan', 
'Africa/Accra', 
"Africa/Addis_Ababa '， 
"Africa/Algiers'， 


Period 对 象 表示 一 个 标准 的 时 间 段 ， 例 如 某 年 、 某 月 、 某 日 、 某 小 时 等 。 时 间 段 的 长 短 由 
freq 属 性 决定 。 下 面 的 程序 调用 Period.now0， 分 别 获得 包含 当前 时 间 的 日 周期 时 间 段 和 小 时 周 
期 时 间 段 。 


now_day = pd.Period.now(freq="D") 
now_hour = pd.Period.now(freq="H") 


now_day now_hour 


Period('2615-67-25'，'D') Period('2615-67-25 11:60', 'H') 
freq 属 性 是 一 个 描述 时 间 段 的 字符 串 ， 其 可 选 值 可 以 通过 下 面 的 代码 获得 : 


from pandas.tseries import frequencies 
frequencies._period_code_map.keys() 
frequencies. period alias dictionary() 


对 于 周期 为 年 度 和 星期 的 时 间 段 ， 可 以 通过 freq 指定 开始 的 时 间 。 例 如 "W" 表 示 以 星期 天 
开始 的 星期 时 间 段 ， 而 "W-MON" 则 表示 以 星期 一 开始 的 星期 时 间 有 段 : 


now_week_sun = pd.Period.now(freq="W") 
now_week_mon = pd.Period.now(freq="W-MON") 
now_week_sun now_week_mon 


Period('2615-67-26/2615-67-26' ，'W-SUN' ) Period( "2615-67-21/2615-67-27" ， "'W-MON ' ) 


时 间 段 的 起 点 和 终点 可 以 通过 start_time 和 end_time 属性 获得 ， 它 们 都 是 表示 时 间 点 的 
Timestamp 对 和 象 : 


now_day.start_time now_day.end time 


Timestamp( "2615-67-25 66:66:68') Timestamp('2815-87-25 23:59:59.999999999') 


调用 Timestamp 对 象 的 to_period0 方 法 可 以 把 时 间 点 转换 为 包含 该 时 间 点 的 时 间 段 ,注意 时 
间 段 不 包含 时 区 信息 : 


now_shanghai.to_period("H") 
Period('2615-67-25 11:66'，'H') 


Timestamp 和 Period 对 象 可 以 通过 其 属性 获得 年 、 月 、 日 等 信息 。 下 面 分 别 获得 年 、 月 、 
日 、 星 期 几 、 一 年 中 的 第 几 天 、 小 时 等 信息 : 


now.year now.month now.day now.dayofweek now.dayofyear now.hour 


将 两 个 时 间 点 相 减 可 以 得 到 表示 时 间 间 隔 的 Timedelta 对 象 ， 下 面 计算 当前 时 刻 离 2015 年 
国庆 节 还 有 多 少时 间 : 
national_day = pd.Timestamp("2615-16-1") 


td = national day - pd.Timestamp.now() 
td 


Timedelta('67 days 12:69:64.639668 ' ) 
时 间 点 和 时 间 间 隔 之 间 可 以 进行 加 减 运 算 : 


national_day + pd.Timedelta("28 days 19:26:36") 
Timestamp('2615-16-21 10:28:30') 


Timedelta 对 象 的 days、seconds、microseconds 和 nanoseconds 等 属性 分 别 获得 它 包含 的 天 数 、 
秒 数 、 微 秒 数 和 纳 秒 数 。 注意 这 些 值 与 对 应 的 单位 相 乘 并 求 和 才 是 该 对 象 表示 的 总 时 间 间 隔 : 


td.days td.seconds td.microseconds 


67L 43744L 39668L 
也 可 以 通过 关键 字 参 数 直 接 指定 时 间 间 隔 的 天 数 、 小 时 数 、 分 钟 数 和 秒 数 : 


print pd.Timedelta(days=10, hours=1, minutes=2, seconds=10.5) 
print pd.Timedelta(seconds=166666) 

16 days 61:62:16.566666 

1 days 63:46:46 
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5.5.2 ”时 间 序 列 


上 节 介绍 的 Timestamp、Period 和 Timedelta 对 象 都 是 表示 单个 值 的 对 象 ， 这 些 值 可 以 放 在 
索引 或 数据 列 中 。 下 面 的 程序 调用 random timestamps0 创 建 一 个 包含 5 个 随机 时 间 点 的 
DatetimeIndex 对 象 ts_index， 然 后 通过 ts_index 创建 PeriodIndex 类 型 的 索引 对 象 pd_index 和 
TimedeltaIndex 类 型 的 索引 对 象 td_index。DatetimeIndex、PeriodIndex 和 TimedeltaIndex 都 从 Index 
继承 ， 可 以 作为 Series 或 DataFrame 的 索引 。 

random _timestamps0 中 的 date_range0 函 数 创建 以 start 为 起 点 、 以 end 为 终点 、 周 期 为 freq 
的 DatetimeIndex 对 象 。 


def random timestamps(start, end, freq, count): 
index = pd.date range(start, end, freq=freq) 
locations = np.random.choice(np.arange(len(index)), size=count, replace=False) 
locations. sort() 
return index[locations] 


np.random. seed(42) 

ts_index = random timestamps("28015-81-81", "2615-10-81", freq="Min", count=5) 
pd_index = ts_index.to_period("M") 

td_index = pd.TimedeltaIndex(np.diff(ts_index)) 


print ts_index, "\n" 
print pd_index, "\n" 
print td_index, "\n" 
DatetimeIndex(['2615-61-15 16:12:66' ， '2615-62-15 88:64:00'， 
“2615-62-28 12:36:68' ， "2615-68-66 62:46:66 ， 
“2615-68-18 13:13:66']， 
dtype= 'datetime64[ns]' ，freq=None，tz=None) 


PeriodIndex(["2615-61'，'2615-62'，'2615-62'，'2615-98'，'2615-68']，dtype='int64'， 
freq="M') 


TimedeltaIndex(['38 days 15:52:60', '13 days 84:26:60', '158 days 14:16:66 '， 
"12 days 16:33:66 ']， 
dtype="'timedelta64[ns]', freq=None) 


下 面 查 看 这 三 种 索引 对 象 的 dtype 属性 。 其 中 M8[ns] 和 m8[ns] 是 NumPy 中 表示 时 间 点 和 时 
间 间 隔 的 dtype 类 型 , 内 部 采用 64 位 整数 存储 时 间 信息 , 其 中 [ns] 表 示 时 间 的 最 小 单位 为 纳 秒 ， 
能 表示 的 时 间 范 围 大 约 是 公元 1678 年 到 公元 2262 年 。PeriodIndex 也 使 用 64 位 整数 ， 但 是 最 小 
时 间 单 位 fredq 属性 决定 。 
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ts_index.dtype pd index.dtype td_index.dtype 


dtype('<M8[ns]') dtype('int64') dtype('<m8[ns]') 


这 三 种 索引 对 象 都 提供 了 许多 与 时 间 相 关 的 属性 ， 例 如 : 


ts_index.weekday pd_index.month td_index.seconds 


[3, 6, 5, 3, 1] [1, 2, 2, 8, 8] [57128，15969，51968，37986] 


DatetimeIndex.shift(n, freq) 可 以 移动 时 间 点 ， 将 当前 的 时 间 移动 na 个 freq 时 间 单位 。 对 于 天 
数 、 小 时 这 样 的 精确 单位 ， 结 果 相 当 于 与 指定 的 时 间 间 隔 相 加 : 


ts_index.shift(1, "H") 
DatetimeIndex(['2815-81-15 17:12:66' ， '2615-62-15 69:64:66 '， 
"2615-62-28 13:36:66' ， "2615-68-66 63:46:66 ， 
“2615-68-18 14:13:66']， 
dtype= 'datetime64[ns]' ，freq=None，tz=None) 


而 对 于 月 份 这 样 不 精确 的 时 间 单 位 ， 则 移动 一 个 单位 相当 于 移 到 月 头 或 月 底 : 


ts_index.shift(1, "M") 
DatetimeIndex(['"2615-61-31 16:12:66' ，'2615-62-28 88:64:60'， 
"2615-63-31 12:36:66' ， "2615-68-31 62:46:66 ， 
“2615-68-31 13:13:66'] ， 
dtype="'datetime64[ns]', freq=None, tz=None) 


DatetimeIndex.normalize0 将 时 刻 修改 为 当天 的 凌晨 零点 ， 可 以 理解 为 按 日 期 取 整 


ts_index.normalize() 
DatetimeIndex(['2615-61-15' ，'2615-62-15' ， "2615-62-28' ， "2615-68-66 ， 
“2615-68-18 ' ] ， 
dtype= 'datetime64[ns]' ，freq=None，tz=None) 


如 果 希 望 对 任意 的 时 间 周 期 取 整 ， 可 以 先 通过 to_period0 将 其 转换 为 PeriodIndex 对 象 ， 然 


后 再 调用 to_timestamp() 方 法 转换 回 DatetimeIndex 对 象 。to_timestamp0 的 how 参数 决定 将 时 间 段 
的 起 点 还 是 终点 转换 为 时 间 点 ， 默 认 值 为 "start"。 


ts_index.to_period("H").to timestamp() 
DatetimeIndex(['2815-61-15 16:608:66' ，'2615-62-15 68:66:66 ， 
"2615-62-28 12:66:68' ， '2615-68-66 62:66:66 ， 
“2615-68-18 13:66:66 ']， 
dtype="datetime64[ns]', freq=None, tz=None) 


下 面 的 Series 对 象 ts_series 的 索引 为 DatetimeIndex 对 象 ， 这 种 Series 对 象 被 称 为 时 间 序 列 ， 
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ts_series = pd.Series(range(5), index=ts_index) 


时 间 序 列 提供 一 些 专门 用 于 处 理 时 间 的 方法 , 例如 between_time0 返 回 所 有 位 于 指定 时 间 范 


围 之 内 的 数据 ; 
ts_series.between time("9:60", "18:60") 
2615-61-15 16:12:66 9 
2615-62-28 12:36:66 2 
2615-68-18 13:13:66 4 
dtype: int64 
而 tshift0 则 将 索引 移动 指定 的 时 间 : 
ts_series.tshift(1, freq="D") 
2615-61-16 16:12:66 9 
2615-62-16 68:64:66 
2615-63-61 12:36:66 2 
2615-68-67 62:46:66 3 
2615-68-19 13:13:66 4 
dtype: int64 
以 PeriodIndex 和 TimedeltaIndex 为 索引 的 序列 也 可 以 使 用 tshift0 对 索引 进行 移动 : 
pd_series = pd.Series(range(5), index=pd_index) 
库 | td_series = pd.Series(range(4), index=td_index) 


pd_series.tshift(1) td_series.tshift(10, freq="H") 


2615-62 9 31 days 61:52:66 98 
2615-63 13 days 14:26:66 1 
2615-63 2 159 days 66:16:66 2 
2615-69 E， 12 days 26:33:66 3 


2615-69 4 dtype: int64 

Freq: M, dtype: int64 

时 间 信 息 除 了 可 以 作为 索引 之 外 ， 还 可 以 作为 Series 或 DataFrame 的 列 。 下 面 分 别 将 上 述 
三 种 索引 对 象 转换 为 Series 对 象 ， 并 查看 其 dtype 属性 : 


ts_data = pd.Series(ts_index) 
pd_data = pd.Series(pd_index) 
td_data = pd.Series(td_ index) 


ts_data.dtype pd data.dtype td_data.dtype 


dtype('<M8[ns]') dtype('0') dtype( '<m8[ns]') 
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可 以 看 到 Pandas 的 Series 对 象 目前 尚 不 支持 使 用 64 位 整数 表示 时 间 段 ， 因 此 使 用 对 象 数 
组 保存 所 有 的 Period 对 象 。 而 对 于 时 间 点 和 时 间 间 隔 数据 则 采用 64 位 整数 数组 保存 。 
当 序 列 的 值 为 时 间 数据 时 ， 可 以 通过 名 字 空 间 对 象 dt 调用 时 间 相 关 的 属性 和 方法 。 例 如 : 


ts_data.dt.hour pd data.dt.month td data.dt.days 


9 16 9 1 9 36 
1 8 4 2 1 13 
2 12 2 2 2 158 
和 4 人 8 12 
4 13 4 8 dtype: int64 


dtype: int64 dtype: int64 


5.5.3 与 NaN 相关 的 函数 


会 与 本 节 内 容 对 应 的 Notebook 为 : 05-pandas/pandas-700-nan.ipynb。 


Pandas 使 用 NaN 表示 缺失 的 数据 ， 由 于 整数 列 无 法 使 用 NaN， 因 此 如 果 整 数 类 型 的 列 出 
现 缺 失 数据 ， 则 会 被 自动 转换 为 浮 点 数 类 型 。 下 面 将 布尔 类 型 的 DataFrame 对 象 传递 给 一 个 整 
数 类 型 的 DataFrame 对 象 的 where0 方 法 。 该 方法 将 False 对 象 的 元 素 设置 为 NaN， 注 意 其 结果 
变 成 了 浮 点 数 类 型 ， 而 没有 NaN 的 列 仍然 为 整数 类 型 。 


np.random.seed(41) 

df int = pd.DataFrame(np.random.randint(86，16，(186，3))，columns=list("ABC")) 
df_int["A"] += 10 

df nan = df_int.where(df_int > 2) 

df_int.dtypes df_nan.dtypes 

A int32 A int32 

B int32 B float64 

© int32 C float64 

dtype: object dtype: object 


df_int df_nan 

1 NE 
DT SS 8 10 3NaN 
AGO NN 3 
FP > + ee PE 
-eM -NE 
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DpPppoe® 
DoNaom 上 


12 6 NaN 
14 6 "9 
> 二 
17 6 NaN 
15 NaN NaN 
15 3 NaN 


isnul0 和 notnull0 用 于 判断 元 素 值 是 否 为 NaN， 它 们 返回 全 是 布尔 值 的 DataFrame 对 象 。 
df.notnull0 和 ~df.isnull0 的 结果 相同 ， 但 是 


-此 
4 


Doovaomhwh pe 


False 


count0 返 


False 


df_nan.count() 


.isnull() 


ey 
二 
和 
[9 
Dovaonowmhwh pe 


:由 于 notnull0 少 创建 一 个 临时 对 象 ， 其 运算 效率 


df_nan.notnull() 


B 
True False 
False True 
True True 
True True 
True False 
True True 
True True 
True False 


反 回 每 行 或 每 列 的 非 NaN 元 素 的 个 数 : 


df_nan.count(axis=1) 


A 16 9 人 
B 8 过 2 
a 5: 2 3 
dtype: int64 3 3 
4 . 
” 3 
6 3 
及 2 
8 和 
9 2 
dtype: int64 
对 于 包含 NaN 元 素 的 数据 ， 最 简 
全 部 使 


的 办 法 就 是 调 


dropna0 以 删除 包含 NaN 的 行 或 列 ， 当 


默认 参数 时 ， 将 删除 包含 NaN 的 所 有 行 。 可 以 通过 thresh 参数 指定 NaN 个 数 的 阔 值 ， 


删除 所 有 NaN 个 数 大 于 等 于 该 阔 值 的 行 。 


中 , 第 0 个 元 素 和 第 2 个 元 素 的 数值 分 别 为 3.0 和 7.0， 因 
i 后 两 个 元 素 的 平均 值 5.0。 而 当 method 为 ' 
于 第 1 个 元 素 的 索引 与 第 2 个 元 素 的 索引 接近 ， 


NaN 被 填充 为 
算 。 


df _nan.dropna() df_nan.dropna(thresh=2) 


Oowm wm 
一 
00 

o ouwAN Do 


兴起 
8 10 3NaN 
1 106NaN 3 
> 
1 
4 12 6 NaN 
Sn 
7 17 6 NaN 
9 15 3 NaN 


当 行 数据 按照 某 种 物理 顺序 (例如 时 间 ) 排 列 时 ， 可 以 使 用 NaN 前 后 的 数据 对 其 进行 填充 。 
ffil0 使 用 之 前 的 数据 填充 ， 而 bfi10 则 使 用 之 后 的 数据 填充 。interpolate0 使 用 前 后 数据 进行 插值 
填充 ， 


df _ nan.ffill() df nan.bfill() df_nan.interpolate() 


Ooo wo pe 
已 
Db 


womanwy 
和 PoDwwwm Uw 


去 -BC A 
| 
本 
ra er 
i 
4 2 0 9 
-2 
| Re 
7 17 6 NaN 
8 15 3 NaN 
9 15 3 NaN 


anupw pe 
己 
% 


13 


8.6 


7 17 6.6 


SiL5 
5 


4.5 
3.6 


interpolate0 默 认 使 用 等 距 线性 插值 ， 可 以 通过 其 method 参数 指定 插值 算法 。 在 下 面 的 例子 


s = pd.Series([3，np.NaN，7]，index=[6，8，9]) 


s.interpolate() 


s.interpolate(method="index") 


9 3.666666 
8 6.555556 


上 当 method 参数 默认 省 时 下 标 为 1 的 


index" 时 ， 则 使 用 索引 值 进 行 插值 运 


Ea 


此 


其 插值 结果 也 接近 第 二 个 元 素 的 值 。 
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9 rt 
dtype: 


9 7.666666 
float64 dtype: float64 


此 外 还 可 以 使 用 字典 参数 让 filna0 对 不 同 的 列 使 用 不 同 的 值 填充 NaN: 


print 


Dovamhwhb he 
上 
D 


df_nan.fillna({"B":-999, "C":0}) 
B 


G@aeehoewmwaen 


各 种 聚合 方法 的 skipna 参数 默认 为 Tue， 因此 计算 时 将 忽略 NaN 元 素 ， 注 意 每 行 或 每 列 
是 单独 运算 的 。 如 果 需 要 忽略 包含 NaN 的 整 行 ， 需 要 先 调 用 dropna0。 若 将 skipna 参数 设置 为 
False， 则 包含 NaN 的 行 或 列 的 运算 结果 为 NaN。 


df nan.sum() df_nan.sum(skipna=False) df_nan.dropna().sum() 


A 143 A 143 A 64 
B 42 B NaN B 24 
24 NaN C 21 
dtype: float64 dtype: float64 dtype: float64 


df.combine_first(other) 使 用 other 填充 df 中 的 NaN 元 素 。 它 将 旦 中 的 NaN 元 素 替 换 为 other 
中 对 应 标签 的 元 素 。 在 下 面 的 例子 中 , df_nan 中 索引 为 1、2、8、9 的 行 中 的 NaN 被 替换 为 df_other 
中 相应 的 值 : 


df_other = pd.DataFrame(np.random.randint(0, 106, (4, 2)), 


print 

A 
16 
16 
9 
18 
2 


Pu Ph e 


332 ， 


columns=["B"，"C"]， 


index=[1，2，8，9]) 


df_nan.combine _ first(df_other) 
Be 
3 NaN 
本, 汉 
es 
F 
6 NaN 


-| 
有 
7 17 6 NaN 
| .7 
ds et 


5.5.4 改变 DataFrame 的 形状 


会 与 本 节 内 容 对 应 的 Notebook 为 : 05-pandas/pandas-800-changeshape.ipynb。 


本 节 介 绍 表 54 中 的 函数 : 


表 5-4 本 节 要 介绍 的 函数 


函数 名 功能 
concat 拼接 多 块 数据 
set_index, 设置 索引 
stack 将 列 索 引 转换 为 行 索引 
Teorder_levels 设置 索引 级 别 的 顺序 
sort_index 对 索引 排序 
melt 透视 表 的 逆 变 换 


DataFrame 的 shape 属性 和 NumpPy 的 


功能 
删除 行 或 列 
将 行 索引 转换 为 列 
将 行 索引 转换 为 列 索引 
交换 索引 中 两 个 级 别 的 顺序 


返回 添加 新 列 之 后 的 数据 


- 维 数组 相同 ， 是 一 个 有 两 个 元 素 的 元 组 。 由 于 


DataFrame 的 index 和 columns 都 支持 MultiIndex 索引 对 象 , 因此 可 以 用 DataFrame 表示 更 高 维 的 
数据 。 


的 章节 还 会 详细 介绍 。 注 意 下 面 的 soils_mean 对 象 的 行 索引 是 多 级 索引 : 


下 面 首先 从 CSV 文件 读 入 数据 ， 并 使 用 groupby0 计 算 分 组 的 平均 值 。 关 于 groupby 在 后 面 


soils = pd.read_csv("Soils.csv", index_col=8)[["Depth", "Contour", "Group", "pH", "N"]] 
soils mean = soils.groupby(["Depth", "Contour"]).mean() 


soils.head() 


Depth Contour Group pH N 


TEN 人 从 Top 1 5.4 0.19 
2 019 Top 1 "570:17 
2 18 Top 1 5.1 9.26 
4 6-16 Top 1 .5.19.17 
5 16-36 Top 2 5.10.16 


soils_mean.head() 


Depth Contour 
9-16 Depression 
Slope 
Top 
16-36 Depression 
Slope 
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a 


. 添加 删除 列 或 行 


于 DataFrame 可 以 看 作 一 个 Series 对 象 的 字典 ， 因 此 通过 DataFrame[colname] = values 即 


可 添加 新 列 。 有 时 新 添加 的 列 是 从 已 经 存在 的 列 计算 而 来 ， 这 时 可 以 使 用 eval0 方 法 计算 。 例 
如 下 面 的 代码 添加 一 个 名 为 N_percent 的 新 列 ， 其 值 为 N 列 乘 上 100: 


soils["N_percent"] = soils.eval("N * 166") 


assign0 方 法 添加 由 关键 字 参 数 指定 的 列 ， 它 返回 一 个 新 的 DataFrame 对 象 ， 原 数据 的 内 容 


保持 不 变 : 


print soils.assign(pH2 = soils.pH + 1).head() 
Depth Contour Group pH N Npercent pH2 


1 6-16 Top 1 5.4 0.19 19 6.4 
2 6-16 Top 527 16 6.7 
3 6-16 Top 6 26 6.1 
4 6-16 Top 51017 17 6.1 
50- Top 2 5.1 0.16 16 6.1 


append() 方 法 用 于 添加 行 ， 它 没有 inplace 参数 ， 只 能 返回 一 个 全 新 对 象 。 由 于 每 次 调用 


append0 都 会 复制 所 有 的 数据 ， 因 此 在 循环 中 使 用 append0 添 加 数据 会 极 大 地 降低 程序 的 运算 速 


度 。 
到 


可 以 使 用 一 个 列表 缓存 所 有 的 分 块 数据 ,然后 调用 concat0 将 所 有 这 些 数据 沿 着 指定 轴 拼 贴 
起 。 下 面 的 程序 比较 二 者 的 运算 速度 : 


def random dataframe(n): 
columns = ["A", "B", "C"] 
for i in range(n): 
nrow = np.random.randint(106, 28) 
yield pd.DataFrame(np.random.randint(8, 160, size=(nrow, 3)), columns=columns) 


df_list = list(random dataframe(10660)) 


%%time 
df_resl = pd.DataFrame([]) 
for df in df list: 
df_resl = df_res1.append(df) 
Wall time: 1.37 s 


Xtime 
df _ res2 = pd.concat(df list, axis=0) 
Wall time: 118 ms 


可 以 使 用 keys 参数 指定 与 每 块 数据 对 应 的 键 , 这 样 结果 中 的 拼接 轴 将 使 用 多 级 索引 , 方便 
快速 获取 原始 的 数据 块 。 下 面 获取 拼接 之 后 的 DataFrame 对 象 中 第 0 级 标签 为 30 的 数据 ， 并 使 
equals0 方 法 判断 它 是 否 与 原始 数据 中 下 标 为 30 的 数据 块 相同 : 


ET 


df _ res3 = pd.concat(df list, axis=@, keys=range(len(df_ list))) 
df_res3.1loc[38].equals(df_list[38]) 
True 


drop0 删 除 指定 标签 对 应 的 行 或 列 ， 下 面 删除 名 为 N 和 Group 的 两 列 : 


print soils.drop(["N", "Group"], axis=1).head() 
Depth Contour pH N_percent 


1 908-10 Top 5.4 19 
2 6-16 ye 16 
3 60-19 Top 5.1 26 
4 98-10 Top 5.1 hr 
5 19-39 Top 5.1 16 


2. 行 索引 与 列 之 间 的 相互 转换 


reset_index0 可 以 将 索引 转换 为 列 , 通过 level 参数 可 以 指定 被 转换 为 列 的 级 别 。 如 果 只 希望 
从 索引 中 删除 某 个 级 别 ， 可 以 设置 drop 参数 为 True。 
print soils mean.reset_index(level="Contour").head() 
Contour Group pH N 


Depth 

6-16 Depression 9 5.4 8.18 
0-10 Slope 5 /15:5 022 
6-19 Top pr 
16-36 Depression 16 4.9 6.68 
16-36 Slope -5.3 91 


set_index0 将 列 转换 为 行 索 引 ， 如 果 append 参数 为 False( 默 认 值 )， 则 删除 当前 的 行 索 引 ， 
若 为 Tue， 则 为 当前 的 索引 添加 新 的 级 别 。 


print soils_mean.set_index("Group"，append=True) .head() 


pH N 

Depth Contour Group 
6-16 Depression 9 5.4 6.18 
Slope 5 5.5 8.22 
Top i 5.3 6.2 
16-36 Depression 16 4.9 9.68 
Slope 6 Se 
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3. 行 索 引 和 列 索引 的 相互 转换 


stack() 方 法 把 指定 级 别 的 列 索引 转换 为 行 索引 ， 而 unstack0 则 把 行 索引 转换 为 列 索引 。 下 
面 的 程序 将 行 索引 中 的 第 一 级 转换 为 列 索引 的 第 一 级 ， 所 得 到 的 结果 中 行 索 引 为 和 


列 索引 为 多 级 索引 : 


print soils mean.unstack(1)[["Group", "pH"]].head() 


Grol 


Contour Depression Slope Top Depression Slope Top 


Depth 
8-16 

16-36 
36-66 
66-96 


up 


9 
16 
二 
12 


5 
6 
8 


pH 


15.4 5.5 5.3 
24.9 5.3 4.8 
34.4 4.3 4.2 
44.2 3.9 3.9 


级 索引 ， 而 


无 论 是 stack0 还 是 unstack0， 当 所 有 的 索引 被 转换 到 同一 个 轴 上 时 ， 将 得 到 一 个 Series 


对 象 : 


print soils_mean.stack().head(16) 


Depth Contour 


6-16 ”Depression Group 


Slope 


Top 


pH 


16-36 Depression Group 


dtype: float64 


4. 交换 索引 的 等 级 


reorder_levels0 和 swaplevel0 交 换 指 定 轴 的 索 
个 级 别 ， 然 后 调用 sort_index0 对 新 的 索引 进行 排序 : 


print soils mean.swaplevel(@, 1).sort_index() 


Contour Depth 
Depression 6-16 
16-36 
36-66 
66-96 


Group 


pH N 


5.4 8.18 
4.9 6.68 
4.4 9.651 
4.2 8.64 


引 级 别 。 下 面 调 用 swaplevel0 交 换行 索引 的 两 


Slope 08-16 
16-36 
36-66 
66-96 
Top 8-16 
16-36 
36-66 
66-96 


5. 透视 表 


S022 
6 5:3 90,1 
7 4.3 0.661 
8 3.9 6.643 
bd 克 过 
2° 4:8” 0312 
3 4.2 6.68 
4 3.9 9.658 


pivot0 可 以 将 DataFrame 中 的 三 列 数据 分 别 作为 行 索引 、 列 索引 和 元 素 值 , 将 这 三 列 数据 转 


换 为 二 维 表格 : 


df = soils mean.reset_index()[["Depth", "Contour", "pH", 


df_ pivot_ pH = df.pivot("Depth", "Contour", "pH") 
df_pivot_pH 


df 


Depth Contour 


9 8-16 Depression 
至 8-16 Slope 
2 6-19 Top 
3 ， 16-36 Depression 
4 16-36 Slope 
5 10-30 Top 
6 30-60 Depression 
7 36-66 Slope 
8 30-60 Top 
9 60-90 Depression 
16 66-96 Slope 
11 66-96 Top 


pivot0 的 三 个 参数 index、columns 和 values 只 支持 指定 


pH N 
5.4 6.18 
5.5 6.22 
5.3 0.2 
4.9 6.68 
5.3 6.1 
4.8 0.12 
4.4 6.651 
4.3 6.661 
4.2 6.68 
4.2 8.64 
3.9 6.643 
3.9 6.658 


Contour Depression 


Depth 

8-106 5.4 
16-36 4.9 
36-66 4.4 
66-96 4.2 


| 人 


将 剩余 的 列 都 当 作 元 素 值 列 ， 得 到 多 级 列 索引 : 


print df.pivot("Depth 


", "Contour") 


N 


Contour Depression Slope Top Depression Slope Top 


pH 
Depth 
8-10 5.4 
16-36 4.9 
36-66 4.4 
66-96 4.2 


DD 
5.3 4.8 
4.3 4.2 
号 汪 


8.18 86.22 6.2 
8.68 6.1 6.12 
8.651 6.661 6.68 
8.64 6.643 8.658 


"N"]] 
DD 
Se 时 
Slope Top 8 
方 
5.5 5.3 便 
的 
5.3 4.8 数 
据 
e342 分 
3.9 3.9 析 
库 


- 列 数据 。 若 不 指定 values 参数 ， 就 
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melt0 可 以 看 作 pivot0 的 逆 变 换 。 


于 它 不 能 对 行 索引 进行 操作 ， 


将 行 索引 转换 为 列 ， 然 后 用 id_vars 参数 指定 该 列 为 标识 列 : 


df_before_melt = df _ pivot pH.reset index() 
df _after melt = pd.melt(df before melt, id_ vars="Depth", value_name="pH") 


df_before melt 


Contour Depth Depression Slope 


9 6-16 5.4 
和 16-36 4.9 
2 36-66 4.4 
E 66-96 4.2 


pH 


df_after melt 

Depth Contour 
9 8-16 Depression 
1 16-36 Depression 
2 38-60 Depression 
3 “66-986 Depression 
4 8-16 Slope 
5 16-36 Slope 
6 36-66 Slope 
7 60-90 Slope 
8 08-10 Top 
9 10-30 Top 
10 36-66 Top 
11 66-98 Top 


5.6 分 组 运算 


w hmwhwmwm 上 上 wm 
DowowwwmNb 上 加 上 


此 先 调 


会 与 本 节 内 容 对 应 的 Notebook 为 : 05-pandas/pandas-900-groupby.ipynb。 


reset_index() 


所 谓 分 组 运算 是 指使 用 特定 的 条 件 将 数据 分 为 多 个 分 组 ， 然 后 对 每 个 分 组 进行 运算 ， 最 


后 再 将 结果 整合 起 来 .Pandas 中 的 分 组 运算 由 DataFrame 或 Series 对 象 的 groupby() 方 ; 


实现 。 


下 面 以 某 种 药剂 的 实验 数据 "dose.csv" 为 例 介 绍 如何 使 用 分 组 运算 分 析 数 据 。 在 该 数据 集中 
使 用 “ABCD”4 种 不 同 的 药剂 处 理 方式 CTmb， 针 对 不 同性 别 (GendeD、 不 同年 龄 (Age) 的 患者 
进行 药剂 实验 ， 记 录 下 药剂 的 投药 量 (Dose) 与 两 种 药剂 反应 (Response)。 


dose df = pd.read_csv("dose.csv") 


print dose df.head(3) 


Dose Responsel Response2 
9 56 六 16 
时 TT 8.662 8.664 
4 25 8.63 8.8 


338 ， 


Tmt 
C 
D 


Age Gender 
66s 
66s FE 
56s M 


5.6.1 groupby() 方 法 


如 图 5-5 所 示 ， 分 组 操作 中 涉及 两 组 数据 : 源 数据 和 分 组 数据 。 将 分 组 数据 传递 给 源 数 据 
内 groupby0 方 法 以 完成 分 组 。groupby0 的 axis 参数 默认 为 0， 表 示 对 源 数据 的 行进 行 分 组 。 源 
数据 中 的 每 行 与 分 组 数据 中 的 每 个 元 素 对 应 ， 分 组 数据 中 的 每 个 唯一 值 对 应 一 个 分 组 。 由 于 图 
中 的 分 组 数据 中 有 两 个 唯一 值 ， 因 此 得 到 两 个 分 组 。 


groupby0 并 不 立即 执行 分 组 操作 ,而 只 是 返回 保存 源 数据 和 分 组 数据 的 GroupBy 对 象 。 
图。 在 需要 获取 每 个 分 组 的 实际 数据 时 ，GroupBy 对象 才 会 执行 分 组 操作 。 


a b 
分 组 数据 Als | [als| 
a [wll |2 | 7 lo | 
源 数据 .groupby( 分 组 数据 ) 2 5 6 机 3 8 
a [9 14 
a 
b 


图 5-5 groupby0 分 组 示意 图 
当 分 组 用 的 数据 在 源 数据 中 时 ， 可 以 直接 通过 列 名 指定 分 组 数据 。 当 源 数据 是 DataFrame 
类 型 时 ，groupby0 方 法 返回 一 个 DataFrameGroupBy 对 象 。 若 源 数 据 是 Series 类 型 ， 则 返回 
SeriesGroupBy 对 象 。 在 下 面 的 例子 中 使 用 Tmt 列 对 源 数据 分 组 : 


tmt_group = dose_df.groupby("Tmt") 
print type(tmt_group) 
<class 'pandas.core.groupby.DataFrameGroupBy' > 


还 可 以 使 用 列表 传递 多 组 分 组 数据 给 groupby0, 例如 下 面 的 程序 使 用 处 理 方式 与 年 龄 对 源 
数据 分 组 : 


tmt_age_group = dose_df.groupby(["Tmt", "Age"]) 


当 分 组 数据 不 在 源 数据 中 时 ， 可 以 直接 传递 分 组 数据 。 在 下 面 的 例子 中 对 长 度 与 源 数据 的 
行 数 相同 、 取 值 范围 为 [0.5) 的 随机 整数 数组 进行 分 组 ， 这 样 就 将 源 数据 随机 分 成 了 5 组 : 


random_values = np.random.randint(6，5，dose_df.shape[6]) 
random group = dose_df.groupby(random values) 


当 分 组 数据 可 以 通过 源 数 据 的 行 索引 计算 时 ， 可 以 将 计算 函数 传递 给 groupby0。 下 面 的 例 
子 使 用 行 索 引 值 除 以 3 的 余数 进行 分 组 ， 因 此 将 源 数据 的 每 行 交 替 地 分 为 3 组 。 这 是 因为 源 数 
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据 的 行 索引 为 从 0 开始 的 整数 序列 。 


alternating group = dose_df.groupby(lambda n:n % 3) 


上 述 三 种 分 组 数据 可 以 任意 自 


以 及 数组 进行 分 组 : 


组 合 , 例如 下 面 的 例子 同时 使 


源 数据 


bh 的 性 别 列 、 函 数 


crazy_group = dose_df.groupby(["Gender", lambda n: n % 2, random values]) 


5.6.2 ”GroupBy 对 象 


使 用 len0 可 以 获取 分 组 数 : 


print len(tmt_age_ group), len(crazy_group) 


16 26 


GroupBy 对 象 支持 迭代 接口 ， 它 与 字典 的 iteritems0 方 法 类 似 ， 每 次 近 代 得 到 分 组 的 键 和 数 
据 。 当 使 用 多 列 数 据 分 组 时 ， 与 每 个 组 对 应 的 键 是 一 个 元 组 : 


for key, df in tmt_age_group: 


print "key =", key, ", shape =", df.shape 


key = ('A， 
key = ('A', 
key = ('B， 
key = ('B', 
key = ('B', 
key = ('C', 
key = ('C', 
key = ('C', 
key = ('D', 
key = ('D', 


“56s') ，shape = (39, 6) 
"66s') ，shape = (26, 6) 
"46s') ，shape = (13, 6) 
“56s') ，shape = (13, 6) 
"66s') ，shape = (39, 6) 
"46s') ，shape = (13, 6) 
"56s') ，shape = (13, 6) 
"66s') ，shape = (39, 6) 
"56s') ，shape = (52, 6) 
"66s') ，shape = (13, 6) 


由 于 Python 的 赋值 语句 支持 迭代 接口 , 因此 可 以 使 用 下 面 的 语句 快速 为 每 个 分 组 数据 指定 


变量 名 。 这 是 因为 我 们 知道 只 有 4 种 药剂 处 理 方式 ， 并 且 GroupBy 对 象 默 认 会 对 分 组 键 进行 排 
序 。 可 以 将 groupby0 的 sort 参 数 设置 为 False 以 关闭 排序 功能 , 这 样 可 以 稍微 提高 大 量 分 组 时 的 


(df A), (_, df B), (_, df C), (_, df D) = tmt_group 


由 于 GroupBy 对象 有 keys 属性 ， 因 此 无 法 通过 dict(tmt_group) 直 接 将 其 转换 为 字典 ， 


如 ”可 以 先 将 其 转换 为 迭代 器 ， 再 转换 为 字典 dict(iter(tmt_group))。 


get_group0 方 法 可 以 获得 与 指定 的 分 组 键 对 应 的 数据 ， 例 如 : 


tmt_group.get_group("A").head(3) 


Dose Responsel Response2 Tmt Age Gender 


6 98 8 A 56s F 
16 15 5.2 5.2 A 66s 
Eb 5 9 9.661 A 66s 3 


tmt_age_group.get_group(("A", "58s")).head(3) 


Dose Responsel Response2 Tmt Age Gender 


6 丢 98 DA F 
1 9 9.663 A 56s M 
34 46 任 10. “A505 M 


对 GroupBy 的 下 标 操作 将 获得 一 个 只 包含 源 数据 中 指定 列 的 新 GroupBy 对 象 , 通过 这 种 方 
式 可 以 先 使 用 源 数据 中 的 某 些 列 进行 分 组 ， 然 后 选择 另 一 些 列 进行 后 续 计 算 。 

print tmt_group["Dose"] 

print tmt_group[["Response1", "Response2"]] 


<pandas .core.groupby.SeriesGroupBy object at 6x6C6676F6> 
<pandas .core.groupby.DataFrameGroupBy object at 6x68C6677F6> 


GroupBy 类 中 定义 了 __getatt_ 0 方法， 因此 当 获 取 GroupBy 中 未 定义 的 属性 时 ， 将 按照 下 
面 的 顺序 操作 : 

e 如 果 属 性 名 是 源 数据 对 象 的 某 列 的 名 称 ， 则 相当 于 GroupBy[name]， 即 获取 针对 该 列 的 
GroupBy 对 象 。 
e 如 果 属 性 名 是 源 数据 对 象 的 方法 ， 则 相当 于 通过 apply0 对 每 个 分 组 调用 该 方法 。 注 意 
Pandas 中 定义 了 转换 为 apply0 的 方法 集合 ,只 有 在 此 集合 之 中 的 方法 才 会 被 自动 转换 。 
关于 apply0 方 法 将 在 下 一 小 节 详 细 介 绍 。 
下 面 的 程序 得 到 对 源 数 据 中 的 Dose 列 进行 分 组 的 GroupBy 对 象 ; 


print tmt_group.Dose 
<pandas .core.groupby.SeriesGroupBy object at 8@x85D96B70> 


5.6.3 ”分 组 一 运算 一 合并 

通过 GroupBy 对 象 提供 的 agg0、transformO、filter0 以 及 apply0 等 方法 可 以 实现 各 种 分 组 运 
算 。 每 个 方法 的 第 一 个 参数 都 是 一 个 回调 函数 , 该 函数 对 每 个 分 组 的 数据 进行 运算 并 返回 结果 。 
这 些 方法 根据 回调 函数 的 返回 结果 生成 最 终 的 分 组 运算 结果 。 
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g.transform( lambda df: 
df - max(df 


i A.min(), df.B.min())) 


df.loc[ (df.A + df.B).idxmax()]) 


A 

国 国 cacao 
oe | ell] ret 
"lls | Bb 二 国 
END 


gE.transform(lambda s: s - s.min()) 


B.agg(np .max) 


图 56 agg0 和 transform0 的 运算 示意 图 
1.agg() 一 聚合 


agg0 对 每 个 分 组 中 的 数据 进行 聚合 运算 。 所 谓 聚合 运算 是 指 将 一 组 由 N 个 数值 组 成 的 数据 
转换 为 单个 数值 的 运算 ， 例 如 求 和 、 平 均值 、 中 间 值 甚至 随机 取 值 等 都 是 聚合 运算 。 其 回调 函 
数 接收 的 数据 是 表示 每 个 分 组 中 每 列 数据 的 Series 对 象 ， 若 回调 函数 不 能 处 理 Series 对 象 ， 则 
agg0 会 接着 尝试 将 整个 分 组 的 数据 作为 DataFrame 对 象 传递 给 回调 函数 。 回 调 函数 对 其 参数 进 
行 聚合 运算 ， 将 Series 对 象 转换 为 单个 数值 ， 或 将 DataFrame 对 象 转换 为 Series 对 和 象 。agg0 返 加 
一 个 DataFrame 对 象 ， 其 行 索引 为 每 个 分 组 的 键 ， 而 列 索引 为 源 数据 的 列 索引 。 

在 图 5-6 中， 上 方 两 个 表格 显示 了 两 个 分 组 中 的 数据 ， 而 下 方 左 侧 两 个 表格 显示 了 对 这 两 
个 分 组 执行 聚合 运算 之 后 的 结果 。 其 中 最 左 侧 的 表格 是 执行 g.agg(np.max) 的 结果 。 由 于 np.max0 
能 对 Series 对 象 进行 运算 ， 因 此 agg0 将 分 组 a 和 分 组 b 中 的 每 列 数据 分 别传 递 给 npmax0 以 计 
算 每 列 的 最 大 值 ， 并 将 所 有 最 大 值 聚 合成 一 个 DataFrame 对 象 。 例 如 分 组 a 中 的 B 列传 递 给 
np.max0 的 计算 结果 为 6， 该 数值 存放 在 结果 的 第 a 行 、 第 B 列 中 。 

左 侧 第 二 个 表格 对 应 的 程序 为 : 


g.agg(lambda df: df.loc[(df.A + df.B).idxmax()]) 


于 在 回调 函数 中 访问 了 属性 A 和 B, 这 两 个 属性 在 表示 每 列 数据 的 Series 对 象 中 不 存在 
因此 传递 Series 对 象 给 回调 函数 的 尝试 失败 。 于 是 agg0 接 下 来 尝试 将 表示 整个 分 组 数据 的 
DataFrame 对 象 传递 给 回调 函数 。 该 回调 函数 每 次 返回 结果 中 的 一 行 ， 例 如 图 中 分 组 b 对 应 的 
运算 结果 为 第 b 行 。 该 回调 函数 返回 每 个 分 组 中 A+B 最 大 的 那 一 行 。 

下 面 是 对 tmt_group 进行 聚合 运算 的 例子 。@ 计 算 每 个 分 组 中 每 列 的 平均 值 ， 注 意 结果 中 


agg_resl = tmt_group.agg(np.mean) © 


agg_res2 = tmt_group.agg(lambda df:df.loc[df.Responsel.idxmax()]) © 


agg_res1 agg_res2 
Dose Responsel Response2 Dose Responsel Response2 
Tmt Tmt 
A 34 6.7 6.9 A 80 S 16 
B 34 5:6 S55 B le+82 多 16 
34 4 4.1 6‘ 60 16 1 
D 34 3 3.2 D 80 1 9 


2. transform() 一 转换 


transtorm0 对 每 个 分 组 中 的 数据 进行 转换 运算 。 与 agg0 相 同 , 首先 尝 i 


自动 剔除 了 无 法 求 平 均值 的 字符 串 列 。 外 找到 每 个 分 组 中 Responsel 最 大 的 那 一 行 ， 
函数 对 表示 整个 分 组 的 DataFrame 进行 运算 ， 因 此 结果 中 包含 了 源 数 据 中 的 所 有 列 。 


对 象 传递 给 回调 函数 ， 如 果 失 败 ， 将 表示 整个 分 组 的 DataFrame 对 象 传递 给 回调 函数 。 
数 的 返回 结果 与 参数 的 形状 相同 ，transtorm0 将 这 些 结果 按照 源 数据 的 顺序 合并 在 一 起 。 


图 5-6 的 下 方 右 侧 两 个 表格 为 ransform0 的 运算 结果 , 它们 对 应 的 回调 函 
两 个 表格 的 行 索引 与 源 数据 的 行 索引 相同 。 
下 面 是 对 tmt_group 进行 转换 运算 的 例子 。@ 回 调 函数 能 对 Series 对 象 进行 运算 ， 因 


DataFrame 对 象 进行 处 理 。 


结果 中 不 包含 源 数据 中 的 字符 串 列 。@ 由 于 Series 对 象 没有 assign0 方 法 ， 


试 Series 失败 之 后 ， 将 表示 整个 分 组 的 DataFrame 对 象 传递 给 回调 函数 。 该 回调 函 


Responsel 列 进行 转换 。 


transform res1 = tmt_group.transform(lambda s:s - s.mean()) © 
transform res2 = tmt_group.transform( 


于 回调 

Age Gender 

66s 

56s M 

56s M 

66s 站 

\ 将 表示 每 列 的 Series 
回调 函 


数 分 别 对 Series 和 


此 运算 


丸 此 transform0 在 尝 


lambda df:df.assign(Responsel=df.Responsel - df.Responsel.mean())) © 


transform_res1.head(5) transform_res2.head(5) 


Dose Responsel Response2 Dose Responsel Response2 Age Gender 


9 16 5.8 5: 呈 /他 56 5.8 16 66s 
证 3 -362 15 -3.3 8.664 66s 
0 -3.4 Er 2) 25 -3.4 8.8 56s 
3 了 95 2 ry 5 By SpE 1.6 66s 
19 -4 -4.1 4 15 -4 8.62 66s 


3.fiter() 一 过 滤 


数 只 对 


filter0 对 每 个 分 组 进行 条 件 判断 。 它 将 表示 每 个 分 组 的 DataFrame 对 象 传递 给 回调 函数 ， 该 
函数 返回 Tme 或 False， 以 决定 是 否 保留 该 分 组 。filter0 的 返回 结果 是 过 滤 掉 一 些 行 之 后 的 
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DataFrame 对 象 ， 


下 面 的 程序 保留 Responsel 列 的 最 大 值 小 于 11 的 分 组 ,注意 结果 中 包含 


其 行 索引 与 源 数据 的 行 索引 的 顺序 一 致 。 


print tmt_group.filter(lambda df:df.Responsel.max() < 11).head() 


Dose Responsel Response2 Tmt Age Gender 


56 


Pw Ph ae 
人 
wm 


5 


9.9 0 C605 
68.662 69.664 D 66s 
8.63 9.8 C 56s M 
1.4 1.6 C 66s 时 
68.61 9.62 C 66s 下 


4. apply0) 一 运用 


apply0 将 表示 每 个 分 组 的 DataFrame 对 象 传递 给 回调 函数 并 收集 其 返回 值 ， 并 将 这 些 返 回 
值 按照 某 种 规则 合并 。apply0 的 用 法 十 分 灵活 ， 可 以 实现 上 述 agg0、transform0O 和 filter0 方 法 的 


令 人 费解 的 结果 


7 


如 图 5-7( 左 


如 图 5-7( 左 


功能 。 它 会 根据 回调 函数 的 返 


o 


个 Series 对 象 的 索引 构成 。 


是 同一 索引 对 象 


df.index is 


则 apply0 返 
在 图 5-7( 左 


(df - df.min()).index 


图 5-7 显示 了 对 包含 a 和 b 两 个 分 组 的 GroupBy 对 象 g 执 行 apply0 后 得 到 
3) 所 示 ， 回 调 函数 为 DataFrame.max， 它 计算 DataFrame 对 象 ! 
返回 一 个 以 列 名 为 索引 的 Series 对 象 ， 因 此 对 于 所 有 的 分 组 数据 返回 的 索引 都 是 相同 
情况 下 apply0 的 结果 与 agg0 相 同 ， 是 一 个 以 每 个 分 组 的 键 为 行 索 引 、 以 所 有 返 
列 索引 的 DataFrame 对 象 。 
2) 所 示 ， 当 回调 函数 返回 的 Series 对 象 的 索引 不 是 全 部 一 致 时 ， 
Series 对 象 沿 垂直 方向 连接 在 一 起 ， 得 到 一 个 多 级 索引 的 Series 对 象 。 多 级 索引 


于 分 组 的 列 Tmt: 


回 的 DataFrame 对 象 的 行 索 引 与 源 数据 的 索引 一 致 ， 这 与 filter0 


四 ) 中 ， 回 调 函数 的 返回 结果 与 (图 5-7 左 三 ) 相 同 ， 但 


于 使 


将 所 有 返回 结果 连接 在 一 起 ， 得 到 一 个 多 级 索引 的 DataFrame 对 象 。 多 级 索引 


个 DataFrame 对 象 的 索引 构成 。 


344 ， 


EE 
据 ， 因 此 其 返回 对 象 与 参数 的 索引 不 是 同一 对 象 。 这 种 情况 下 ， 将 按照 分 组 的 顺序 沿 垂直 方向 


可 值 的 类 型 选择 恰当 的 合并 方式 ， 然 而 这 种 自动 选择 有 1 


可 对 象 


上 时 会 得 到 


的 4 种 结果 ; 
! 每 列 芯 


最 大 值 ， 
4。 这 种 


的 索引 为 


apply0 将 这 些 


由 分 组 


在 图 5-7( 左 三 ) 中 ， 回 调 函数 返回 的 是 DataFrame 对 象 ， 并 且 结 果 的 行 索引 与 参数 
， 即 满足 如 下 条 件 : 


的 键 和 每 


的 行 索 引 


的 结果 相同 。 
复制 了 整个 数 


分 组 


的 键 和 每 


Bg.apply(DataFrame.max) 


g.apply(lambda df: df.A.sample(2)) 


N | 


g-apFly(lambda df: (df - df.min())[:]) 


| 1 
319 
b |4 |13 
7 
g.appty(Lanbda df: df - df.min()) 


图 5-7 apply0 的 运算 示意 图 


人 注意 目前 的 版 本 采用 is 判断 索引 是 否 相 同 , 很 容易 引起 混淆 ,未 来 的 版 本 可 能 会 对 这 
一 点 进行 修改 。 


下 面 计算 tmt_group 的 每 个 分 组 中 每 列 的 最 大 值 和 平均 值 。 注 意 最 大 值 的 结果 中 包含 字符 
串 列 ， 而 平均 值 的 结果 中 不 包含 字符 串 列 : 


tmt_group.apply(pd.DataFrame.max) 


tmt_group.apply(pd.DataFrame.mean) 


Dose Responsel Response2 Tmt Age Gender Dose Responsel Response2 
Tmt Tmt 
A 1le+62 11 11 A 66s M A 34 6.7 6.9 
B le+02 ; 10 B 66s M B 34 5.6 »25 
C le+02 16 1 CG bos M Se 34 4 4.1 
D 1le+02 地 9.9.11D2695 M D 34 2 FE 


下 面 的 程序 从 每 个 分 组 的 Responsel 列 随机 取 两 个 数值 . @ 由 于 sample0 保 留 与 数值 对 应 的 
标签， 因此 结果 是 一 个 多 级 标签 的 Series 对 象 。@ 对 sample0 的 结果 调用 reset_index0 方 法 ， 这 
样 所 有 返回 结果 的 标签 全 部 相同 ， 因 此 得 到 的 结果 是 一 个 DataFrame 对 象 ， 其 每 一 行 与 一 个 分 


组 对 应 。 


sample_resl = tmt_group.apply(lambda df:df.Response1.sample(2)) © 


sample_res2 = tmt_group.apply( 


lambda df:df.Responsel.sample(2).reset_index(drop=True)) © 
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sample_res1 


Tmt 

A 248 16 
164 16 

B 113 0.19 
26 9.4 

入 194 16 
236 二 

D 188 “6.661 
8 68.661 


sample_res2 


Responsel 8 
Tmt 


A 16 
B 16 
C 8.664 
D 8.33 


Name: Responsel, dtype: float64 


当 回调 函数 的 返回 值 是 DataFrame 对 象 时 ， 根 据 其 行 标签 是 否 与 参数 对 象 的 行 标签 为 同一 
对 象 ， 会 得 到 不 同 的 结果 ; 


group = tmt_group[["Response1", "Response1"]] 

apply_resl = group.apply(lambda df:df - df.mean()) 

apply_res2 = group.apply(lambda df:(df - df.mean())[:]) 
apply_res1.head() 


apply_res2.head() 


Responsel 
5.8 

-3.3 

-3.4 

-2.7 

-4 


上 mwN Ph e@ 


Responsel 
5.8 Tmt 
-3.3 A 
-3.4 
-2.7 
-4 


Responsel Responsel 


6 G28 -6.7 
16 = = 和 
12 -6.7 -6.7 
17 -6.7 -6.7 
32 2.6 2.6 


当 回 调 函数 返回 None 时 ， 将 忽略 该 返回 值 ， 因 此 可 以 实现 filter0 的 功能 。 下 面 的 程序 从 
Responsel 的 均值 大 于 5 的 分 组 中 随机 取 两 行 数据 : 


print tmt_group.apply(lambda df:None if df.Responsel.mean() < 5 else df.sample(2)) 


Dose Responsel Response2 Tmt Age Gender 


Tmt 
驴 235 66 3 
164 26 16 
B” 六 46 11 
16 36 9.8 
Pandas 使 用 Cython 对 一 些 常 


10 A 56s M 
10 A 56s 下 
16 B 66s 3 
16 B 66s 


apply0 包 装 。 


天 


对 象 调用 这 些 方法 就 相当 于 将 这 些 方法 作为 回调 函数 传递 给 apply0。 


的 聚合 功能 进行 了 优化 处 理 ， 例 如 mean0、median0、var0 
等 。 此 外 ，GroupBy 还 自动 将 一 些 常用 的 DataFrame 方法 


此 ， 通 过 GroupBy 


下 面 的 例子 分 别 调用 Cython 编写 的 提速 方法 mean0 和 使 用 apply0 包 装 之 后 的 quantile0 
方法 : 


tmt_group.mean() tmt_group.quantile(q=6.75) 
Dose Responsel Response2 Dose Responsel Response2 
Tmt Tmt 
A 34 6.7 09 A 56 16 16 
B 34 5.6 5.5 B 56 9.8 16 
全 34 4 4.1 k 56 96 9.6 
D 34 a 3;2 D 56 8.9 8.4 


本 节 以 DataFrameGroupBy 对 象 为 例 介绍 了 分 组 运算 的 基本 概念 以 及 常用 方法 。Pandas 提供 
的 分 组 运算 功能 十 分 强大 ， 建 议 读者 在 理解 了 本 节 的 内 容 之 后 ， 再 详细 阅读 官方 的 帮助 文档 ， 
以 了 解 更 多 的 用 法 和 技巧 。 


5.7 数据 处 理 和 可 视 化 实例 


A 与 本 节 内 容 对 应 的 Notebook 为 : 05-pandas/pandas-A00-examples.ipynb。 


作为 本 章 的 最 后 一 节 ， 让 我 们 看 两 个 用 Pandas 分 析 实 际 数据 的 例子 。 本 节 使 用 Pandas 提 
供 的 绘图 方法 plot0 将 计算 结果 显示 为 图 表 ， 其 内 部 使 用 matplotlib 绘图 。 关 于 绘图 方面 的 详细 
信息 请 读者 参考 matplotlib 章节 。 
5.7.1 分 析 Pandas 项 目的 提交 历史 

Pandas 的 源 代码 托管 于 GitHub， 由 世界 各 地 的 爱好 者 共同 开发 。 下 面 让 我 们 使 用 Pandas 
分 析 它 的 提交 记录 文件 data/pandas.log。 如 果 读 者 的 计算 机 中 安装 了 Git 版 本 控制 软件 ， 可 以 通 
过 如 下 命令 创建 该 文件 : 

git clone https://github.com/pydata/pandas.git 


cd pandas 
git log > ../pandas.log 


该 文件 中 的 一 条 提交 记录 由 多 行文 本 构成 ， 例 如 : 


commit 758ca65e2eb64532b5d78331ba87c291638e2c61 
Author: Garrett-R <xxxx@xXxxxx.com> 
Date: Sat Jun 27 15:11:12 2615 -6766 
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348 ， 


提交 说 明 的 元 组 


四 


def read git log(log fn): 
import io 


于 该 文件 不 是 由 特定 分 隔 符 分 隔 的 文本 文件 , 无 法 使 
写 数据 读 取 函数 read_git log0。 它 是 一 个 4 


with io.open(log fn, "r", encoding="utf8") as f: 


author = datetime = None 
message = [] 
message_start = False 
for line in f: 
line = line.strip() 
if not line: 
continue 


if line.startswith("commit"): 
if author is not None: 
yield author, datetime, u"\n".join(message) 


del message[:] 


message_start = False 


elif line.startswith("Author:" 
author = line[line. 


index( 


elif line.startswith("Date:"): 
datetime = line[line.index(":")+1 :].strip() 
message_start = True 


elif message_start: 


message.append(line) 


DOC: Add warning for newbs not to edit auto-generated file, #106456 


read_csv0 读 取 , 因此 我 们 自己 编 
E 成 器 函数 ， 每 次 迭代 返回 一 个 包含 作者 名 、 日 期 和 


:")+1 : line.index("<")].strip() 


下 面 将 生成 器 的 数据 转换 为 DataFrame 对 象 ， 其 中 包括 了 12109 条 提交 记录 : 


df_commit = pd.DataFrame(read git_ log("data/pandas.1o0g"), 


columns=["Author", "DateString", "Message"]) 


print df_commit.shape 
(12169, 3) 


为 了 分 析 时 间 数 据 ， 需 要 将 提交 四 


完成 这 个 任务 ， 它 会 自动 尝试 各 种 常 


将 所 有 的 时 间 都 转换 成 了 世界 标准 时 间 


间 的 字符 串 转 
的 日 期 格式 。 


换 为 时 间 列 ， 使 用 to_datetime0 可 以 快速 


下 面 的 输出 可 知 ， 


df_commit["Date"] = pd.to_datetime(df_commit.Datestring) 
print df_commit[["DateString", "Date"]].head() 


它 进 行 了 时 区 转换 ， 


Datestring Date 
Tue Jul 7 23:43:31 2615 -6568 2615-67-88 64:43:31 
Tue Jul 7 12:18:56 2615 -6768 2615-67-87 19:18:56 
Tue Jul 7 13:37:38 2615 -6568 2615-67-87 18:37:38 
Sat Jun 27 15:11:12 2615 -6766 2615-66-27 22:11:12 
Tue Jul 7 16:53:55 2615 -6566 2615-67-67 15:53:55 


上 whN Ph e@ 


为 了 统计 每 个 时 区 的 提交 次 数 ， 下 面 将 表示 时 区 的 部 分 提取 出 来 , 保存 到 Timezone 列 中 : 


df_commit["Timezone"] = df_commit.DateString.str[-5:] 


在 提交 说 明 的 每 行 开头 可 能 会 有 全 部 大 写字 母 的 单词 ， 该 单词 通常 用 于 描述 提交 的 分 类 。 
在 大 致 浏览 提交 记录 之 后 ， 决 定 使 用 正则 表达 式 "([A-Z{2,12})" 提 取 这 种 分 类 信息 。 其 中 ^ 与 
re.MULTILINE 配合 使 用 ， 可 以 匹配 每 行 的 开头 ，0 括 起 来 的 部 分 就 是 要 提取 的 内 容 ，[A-Z/ 匹 
配 大 写字 母 或 斜 杠 字 符 ，{2,12} 表 示 前 面 的 匹配 重复 2 到 12 次 。 


import re 
df_commit["Type"] = df_commit.Message.str.extract(r"^([A-2/]{2,12})", 
flags=re.MULTILINE) 


下 面 使 用 value_counts0 统 计时 区 和 分 类 。 可 以 看 到 美国 所 在 时 区 的 提交 数 最 多 , 修复 BUG 
的 提交 数 最 多 。 


tz_counts = pd.value counts(df_commit.Timezone) 
type_counts = pd.value_counts(df_commit.Type) 
tz_counts.head() type_counts.head() 


-9866 519 CLN 424 

dtype: int64 dtype: int64 

为 了 方便 后 续 处 理 ， 下 面 将 Date 列 设置 为 行 索 引 ， 并 且 按 照 时 间 顺 序 排序 。 注 意 我 们 设 
置 drop 参数 为 False， 保 留 Date 列 。 


df_commit.set_index("Date", drop=False, inplace=True) 
df_commit.sort_index(inplace=True) 


下 面 统计 两 次 连续 提交 之 间 的 时 间 间 隔 ,结果 如 图 5-8 所 示 。@ 对 Date 列 调用 diff0 方 法 计 
算 前 后 两 个 时 间 点 的 差 , 由 于 最 开始 的 数据 无 法 计算 , 因此 得 到 的 值 为 NaN, 这 里 调用 dropna0 
来 删除 NaN。@ 为 了 方便 绘制 直方 统计 图 , 这 里 将 时 间 差 转换 为 小 时 数 。@ 调 用 plot0 方 法 绘图 ， 
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通过 kind 参数 指定 图 表 的 类 型 为 "hist"，figsize 参数 指定 图 表 的 大 小 ， 其 余 的 参数 都 传递 给 实际 
的 绘图 函数 hist0，plot0 方 法 返回 表示 子 图 的 对 象 。 


time delta = df_commit.Date.diff(1).dropna() © 
hours delta = time delta.dt.days * 24 + time delta.dt.seconds / 3600.0 © 
ax = hours_ delta.plot(kind="hist", figsize=(8, 3), ®©® 

bins=1868, histtype="step", range=(8, 5), linewidth=2) 
ax.set_xlabel("Hours") 


Degree 


Hours 


图 5-8 两 次 提交 的 时 间 间 隔 统计 


下 面 的 程序 绘制 每 个 星期 的 提交 数 ， 结 果 如 图 5-9 所 示 。 先 调用 时 间 序 列 的 resample0 方 法 
对 其 进行 分 组 计算 ， 其 第 一 个 参数 为 表示 分 组 时 间 周 期 的 字符 串 ，“W” 表示 按 星期 分 组 。how 
参数 指定 对 每 个 分 组 执行 的 运算 。"count" 表 示 返 回 每 个 分 组 中 值 不 为 NaN 的 元 素 个 数 。 因 此 可 
以 使 用 不 包含 NaN 的 任何 列 得 到 相同 的 结果 。 
ax = df_commit.Author.resample("W", how="count").plot(kind="area", figsize=(8, 2.5)) 


ax.grid(True) 
ax.set_ylabel(u" 提 交 次 数 ") 


提交 次 数 


2013 
Date 


图 5-9 每 个 星期 的 提交 次 数 


how 参数 还 支持 回调 函数 ， 例 如 下 面 的 程序 绘制 每 个 月 的 提交 人 数 ， 结 果 如 图 5-10 所 示 。 


这 里 使 用 len(s.unique0) 得 到 每 个 分 组 去 重 之 后 的 长 度 : 


ax = df_commit.Author.resample("M", how=lambda s:len(s.unique())).plot( 
kind="area", figsize=(8, 2.5)) 
ax.set_ylabel(u" 提 交 人 数 ") 


50 


2010 2011 2013 2014 2015 
Date 


图 5-10 每 个 月 的 提交 人 数 


2 请 读者 思考 如 何 使 用 groupby0 实 现 与 上 述 resample0 相 同 的 运算 。 


下 面 使 用 value_counts0 方 法 统计 每 位 作者 的 提交 数 。Pandas 的 创始 人 Wes McKinney 目前 


还 是 排 在 第 一 位 : 


s_authors = df_commit.Author.value_counts() 
print s_authors.head() 
Wes McKinney 3115 


jreback 3669 
y-p 943 
Chang She 629 


Phillip Cloud 596 
dtype: int64 


下 面 使 用 crosstab0 统 计 每 个 月 每 位 作者 的 提交 数 , 所 得 到 的 结果 df_counts 的 行 索引 为 月 份 ， 


列 索引 为 作者 。 这 里 通过 DatetimeIndex 的 to_period0 将 时 间 点 转换 为 以 月 为 单位 的 时 间 段 。 结 


末 趾 


P 包 含 72 个 月 、485 位 作者 的 提交 数 : 


df_counts = pd.crosstab(df_commit.index.to_ period("M"), df_commit.Author) 
df_counts.index.name = "Month" 
print df_counts.shape 
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(72，485) 


下 面 获取 s_authors 中 排 前 5 名 的 作者 对 应 的 列 ， 并 调用 plot0 绘 图 ， 结 果 如 图 5-11 所 示 。 
默认 情况 下 plot0 将 多 列 数据 绘制 在 一 个 子 图 中 。 这 里 将 subplots 参数 设置 为 Tme， 让 每 列 数据 
绘制 在 不 同 的 子 图 中 。 通 过 将 sharex 和 sharey 参数 设置 为 Tue， 让 所 有 子 图 的 X-Y 轴 的 数据 范 
围 保持 一 致 ， 以 便 比 较 数 据 。 由 图 可 知 创始 人 已 于 2013 年 下 半年 离开 该 项 目 ， 目 前 由 jreback 
接手 。 


df_counts[s_authors.head(5).index].plot(kind="area"， 
subplots=True, 
figsize=(8, 6), 
color=pl.rcParams[ 'axes.color_cycle'][8], 
alpha=6.5， 
sharex=True, 
sharey=True) 


“|— WesMcKinney 


BY AN SN 3 AN BY 
Month 


图 5-11 前 5 名 作者 的 每 月 提交 次 数 


下 面 我 们 绘制 与 GitHub 类 似 的 活动 记录 图 ， 效 果 如 图 5-12 所 示 。 图 中 的 每 个 方块 表示 一 
天 的 提交 数 ， 每 一 列表 示 一 个 星期 。@ 首 先 将 索引 转换 为 以 天 为 周期 的 时 间 段 索引 ， 然 后 统计 
次 数 ， 就 得 到 了 每 天 的 提交 数 ， 其 索引 为 以 天 为 周期 的 时 间 段 。@ 将 该 索引 转换 多 级 索引 ， 第 
0 级 是 以 星期 为 周期 的 索引 ， 第 1 级 是 表示 星期 几 的 整数 ，0 表示 星期 一 。 


目 使 用 unstack0 将 第 0 级 索引 转换 为 列 索 引 ， 得 到 一 个 DataFrame 对 象 ， 获 取 其 最 后 60 周 
的 数据 之 后 ， 将 其 中 的 NaN 填充 为 0。 这 样 就 得 到 了 用 于 做 图 的 active_data 数据 。 

注意 daily_commit 的 索引 不 是 按照 时 间 先 后 顺序 排列 的 ， 但 unstack0 返 回 的 结果 中 行 索引 
和 列 索 引 都 是 按 从 小 到 大 的 顺序 排列 的 : 


daily commit = df_commit.index.to_period("D").value_counts() © 

daily commit.index = pd.MultiIndex.from arrays([daily_commit.index.asfreq("W"), © 
daily_commit.index.weekday]) 

daily commit = daily commit.sort index() 

active data = daily_commit.unstack(6).iloc[:，-66:].fillna(6) © 


下 面 是 绘图 部 分 ，@ 调 用 pcolormesh0 绘 制 填充 方 格 , 然后 调用 set_xticks0 等 函数 修改 X 和 
立轴 上 刻度 的 位 置 和 文本 : 


fig，ax = pl.subplots(figsize=(15, 4)) 
ax.set_aspect("equal") 
ax.pcolormesh(active_data.values, cmap="Greens", 
vmin=8, vmax=active_data.values.max() * 86.75) @ 


tick_locs = np.arange(3, 60, 10) 

ax.set_ xticks(tick_locs + 8.5) 

ax.set xticklabels(active data.columns[tick_locs].to timestamp(how="start").format()) 
ax.set_yticks(np.arange(7) + 80.5) 


from pandas.tseries.frequencies import DAYS 
ax.set_yticklabels(DAYS) 


SUN| 
SAT 于 站 
FRI 
THU 
wED 
TUE| 
wo pd 


2014-06-09 2014-08-18 2014-1027 2015-01-05 2015-03-16 2015-05-25 


图 5-12 Pandas 项 目的 活动 记录 图 


也 可 以 使 用 本 书 提供 的 plot_dataframe_as_colormesh0 来 绘制 ， 效 果 见 图 5-12: 


from scpy2.pandas import plot_dataframe_as_colormesh 


plot_dataframe_as_colormesh(active_data，xtick_start=3，xtick_step=16， 
xtick_format=lambda period:str(period.start_time.date())， 
ytick_format=dict(zip(range(7)，DAYS)).get， 


cmap="Greens", vmin=0, vmax=active data.values.max() * 9.75) 
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5.7.2 ”分析 空气 质量 数据 


在 前 面 介 绍 输 入 输出 的 小 节 里 门将 data/aqi 文件 夹 下 的 所 有 空气 质量 数据 的 CSV 文件 
写 入 了 HDF5 文 件 aqihdf5。 下 面 我 们 利用 Pandas 分 析 这 些 数据 。 首 先 使 用 HDFStore 打开 保存 
数据 的 HDF5 文件 ， 并 调用 select0 来 读 入 所 有 数据 ， 如 表 5-5 所 示 : 

index Time 

1 2014-04-11 
15:00:00 

入 2014-04-11 
15:00:00 

3 2014-04-11 
15:00:00 

4 2014-04-11 
15:00:00 

5 2014-04-11 
15:00:00 


store = pd.HDFStore("data/aqi/aqi.hdf5") 
df aqi = store.select("aqi") 
df_aqi.head() 


下 面 用 value_counts0 查 看 所 有 的 城市 名 : 


print df aqi.City.value_counts() 
天 津 134471 
北京 1699999 
上 海 92745 
天 津 市 13 
北京 市 12 
上 海 市 19 
dtype: int64 


我 们 发 现 每 座 城市 都 有 两 种 表示 形式 ， 下 而 
转换 为 分 类 类 型， 


i 使 用 strreplace0 将 结尾 的 “市 ”删除 ， 并 将 其 


df_aqi["City"] = df_aqi.City.str.replace(" 
print df_aqi.City.value_counts() 

天 津 ” 134484 

北京 116611 


jj", "").astype("category") 


上 海 92755 
dtype: int64 


AQI 列 为 空气 质量 的 评分 ， 而 其 他 的 数值 列 为 各 种 成 分 的 指标 值 。 下 面 通过 cor0 计 算 这 
些 值 之 间 的 相关 性 : 
corr = df_aqi.corr() 


print corr 


AQI PM25 PMO CO No2 03 so 


AQI 1 6.944 8.694 8.611 6.534 -6.136 0.42 
PM2 5 @.944 1 6.569 08.633 0.556 -6.169 6.426 
PM16 8.694 6.569 1 6.46 0.472 -8.136 6.414 
CO 9.611 6.633 ”6.46 1 6.565 -6.233 6.538 
NO2 8.534 8.556 6.472 8.565 1 -6.439 8.448 
03 -0.136 -8.169 -8.136 -6.233 -0.439 1 -8.198 
S02 8.42 0.426 0.414 8.538 0.448 -8.198 加 


为 了 更 直观 地 显示 上 面 的 相关 矩阵, 可 以 将 其 绘制 成 如 图 5-13 所 示 的 图 表 。 由 图 可 知 空气 
质量 指数 与 PM2.5 的 相关 性 最 大 ， 而 与 03 略 呈 负 相 关 性 。 


fig，ax = pl.subplots() 
plot_dataframe_as_colormesh(corr, ax=ax, colorbar=True, xtick_rot=96) 


0.90 
0.75 
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0.45 
0.30 
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图 5-13 空气 质量 参数 之 间 的 相关 性 


下 面 比较 每 座 城 市 每 天 的 PM2.5 值 的 分 布 情况 。@ 首 先 调用 groupby0， 按 照 日 期 和 城市 分 
组 ，@ 然 后 计算 每 个 分 组 的 PM2.5 的 平均 值 ， 结 果 是 一 个 多 级 索引 的 Series 对 象 。 索 引 的 第 0 
级 为 日 期 , 第 1 级 为 城市 。 接着 调用 unstack0 将 第 1 级 转换 为 列 ， 因 此 mean_pm2_5 是 一 个 行 索 
引 为 日 期 、 列 索引 为 城市 的 DataFrame 对 象 。@ 调 用 plot(kind="hist") 绘 制 直方 统计 图 ， 它 会 对 
DataFrame 对 象 中 的 每 列 数据 进行 运算 ， 结 果 如 图 5-14( 左 ) 所 示 。 
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daily_city groupby = df_aqi.groupby([df aqi.Time.dt.date, "City"]) © 
mean_pm2_5 = daily_city_groupby.PM2 5.mean().unstack() © 
mean_pm2 5.plot(kind="hist", histtype="step", bins=20, normed=True, lw=2) © 


还 可 以 将 kind 参数 设置 为 "kde" 以 绘制 核 密度 估计 分 布 ， 结 果 如 图 5-14( 右 ) 所 示 。 由 于 使 用 
了 高 斯 核 ， 因 此 图 中 均值 小 于 0 的 概率 密度 不 为 零 。 


ax = mean_pm2 5.plot(kind="kde") 
ax.set_xlim(0, 400) 


0.012 
City 
0.010| [已 上 海 
[北京 
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图 5-14 每 座 城市 的 日 平均 PM2.5 的 分 布 图 


下 面 计算 三 座 城市 每 天 的 PM2.5 之 间 的 相关 性 ， 如 表 5-6 所 示 。 可 以 看 出 上 海 和 北京 基本 
无 相关 性 ， 而 天 津 和 北京 则 有 较 强 的 相关 性 。 


mean_pm2_5.corr() 
表 5-6 三 座 城市 PM2.5 之 间 的 相关 性 
index 天 津 
上 海 00718 
北京 0.691 
天 津 了 


下 面 统计 一 个 星期 中 每 天 的 PM2.5 的 平均 值 ， 通 过 dt.dayofweek 可 以 获得 表示 星期 几 的 整 
数 序列 ， 其 中 0 表示 星期 一 。 结 果 如 图 5-15 所 示 ， 可 以 看 出 北京 市 星期 四 、 星 期 五 、 星 期 六 的 
空气 质量 要 比 其 他 时 间 的 差 一 些 。 


week_mean = df_aqi.groupby([df_aqi.Time.dt.dayofweek，"City"]).PM2 5.mean() 
ax = week_mean.unstack().plot(kind="Bar") 
ax.legend(bbox_to_anchor=(8., 1.62, 1., .102), loc=3, 
ncol=3, mode="expand", borderaxespad=0.) 
from pandas.tseries.frequencies import DAYS 
ax.set_xticklabels(DAYS) 
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下 
图 5-15 一 星期 中 PM2.5 的 平均 值 
下 面 统计 一 天 中 每 个 小 时 的 PM2.5 的 平均 值 , 结果 如 图 5-16 所 示 , 可 以 看 出 北京 市 白天 的 
空气 质量 比 夜 晚 要 好 一 些 : 


hour_mean = df_aqi.groupby([df_aqi.Time.dt.hour, "City"]).PM2 5.mean() 

ax = hour_mean.unstack().plot(kind="Bar", figsize=(106, 3)) 

ax.legend(bbox_to_anchor=(8., 1.62, 1., .102), loc=3, 
ncol=3，borderaxespad=6.) 


CE 了 北京 天 津 


图 5-16 一 天 中 不 同时 段 的 PM2.5 的 平均 值 


下 面 计 算 北 京 市 每 个 观测 点 的 每 个 月 的 PM2.5 的 平均 值 ， 得 到 一 个 多 级 索引 的 
month_place_mean 序列 ， 其 第 0 级 为 月 份 、 第 1 级 为 观测 点 。 然 后 调用 其 meandevel=1) 方 法 ， 计 
算 每 个 观测 点 的 PM2.5 的 平均 值 ， 结 果 如 图 5-17 所 示 。 


df_bj = df_aqi.query("City==' 北 京 '") 
month_place mean = df_bj.groupby([df_bj.Time.dt.to period("M"), 
"Position"]).PM2 5.mean() 
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place_mean = month_place_mean.mean(level=1).order() 
place_mean.plot(kind="bar") 
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库 


图 5-18 北京 市 各 观测 点 的 月 平均 PM25 值 
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SymPy- 符 号 运算 好 帮手 


SymPy 是 Python 的 数学 符号 计算 库 ， 用 它 可 以 进行 数学 表达 式 的 符号 推导 和 演算 。 随 着 
SymPy 0.7.3 的 发 布 ， 它 已 经 逐渐 发 展 成 熟 。 虽 然 与 一 些 专业 符号 运算 软件 相 比 ，SymPy 的 功能 
以 及 运算 速度 都 还 较 弱 , 但 由 于 它 完全 采用 Python 编写 , 因而 能 很 好 地 与 其 他 的 Python 科学 计 
算 库 结合 使 用 。 例 如 本 章 最 后 一 节 将 介绍 如 何 使 用 SymPy 得 到 一 个 简单 的 单 摆 系 统 的 微分 方程 
组 ， 并 将 其 自动 转换 成 数值 运算 程序 ， 通 过 SciPy 中 的 odeint0 求 解 该 微分 方程 组 ， 最 后 使 用 
matplotlib 完成 动画 模拟 。 


6.1 从 例子 开始 


(®, 与 本 节 内 容 对 应 的 Notebook 为 : 06-sympy/sympy-100-intro.ipynb。 


在 详细 介绍 SymPy 的 语法 结构 和 各 种 运算 功能 之 前 ， 本 节 先 通过 几 个 实例 说 明 用 SymPy 
解决 符号 运算 问题 的 一 般 步 又 。 


6.1.1 封面 上 的 经 典 公式 


下 面 是 本 书 封面 左上 角 的 数学 公式 : 
eir+1=0 
该 公式 被 称 为 欧 拉 恒 等 式 ， 其 中 e 是 自然 常数 ,i 是 虚数 单位 ，z 是 圆周 率 。 它 被 誉 为 数学 
中 最 奇妙 的 公式 ， 它 将 5 个 基本 数学 常数 用 加 法 、 乘 法 和 党 运 算 联 系 起 来 。 下 面 用 SymPy 验证 
这 个 公式 。 
首先 从 sympy 库 载 入 所 有 名 字 ， 其 中 E 表 示 自 然 常 数 ，I 表 示 虚 数 单位 ，pi 表示 圆周 率 ， 
因此 可 以 用 它们 直接 求 欧 拉 公式 的 值 : 


from sympy import * 
E**(I*pi) + 1 
0 


SymPy 还 可 以 帮助 我 们 做 数学 公式 的 推导 和 证 明 。 欧 拉 恒 等 式 可 以 将 x 代入 下 面 的 欧 拉 公 
式 来 得 到 : 
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e = COSX + isinx 


在 Sympy 中 可 以 使 用 expand0 将 表达 式 展开 ， 下 面 用 它 展 开 ex 试 试看 


x = symbols("x") 
expand( E**(I*x) ) 
ix 


e 


很 遗憾 没有 成 功 ， 若 将 expand0 的 参数 complex 设置 为 True， 则 表达 式 将 被 分 为 实数 和 虚 
数 两 个 部 分 : 


expand(exp(I*x), complex=True) 
ije-3xsin(Rx) + e-Sxcos(9Rx) 


这 次 表达 式 展开 了 ， 但 是 得 到 的 结果 相当 复杂 。 其 中 Rx 是 取 实 数值 的 函数 ，Sx 是 取 虚 数 
值 的 函数 。 之 所 以 会 出 现 这 两 个 函数 ,是 因为 expand0 将 x 当 作 复数 处 理 。 为 了 指定 x 为 实数 ， 
需要 如 下 重新 定义 x: 


x = Symbol("x", real=True) 
expand(exp(I*x), complex=True) 


isin(x) + cos(x) 
终于 得 到 了 网 拉 公式 ， 那 么 如 何 证 明 它 呢 ? 可 以 用 泰勒 多 项 式 对 其 进行 展开 


tmp = series(exp(I*x), x, 9, 10) 
tmp 


下 人 a i x6 这 ， O10 
tx 7 124+120 720 50401+ 40320 + + 人 


展开 之 后 的 虚数 项 和 实数 项 交替 出 现 。 根 据 欧 拉 公式 ， 虚 数 项 之 和 应 该 等 于 sin(%) 的 泰勒 
级 数 ， 而 实数 项 之 和 应 该 等 于 cos(x) 的 泰勒 展开 。 下 面 获得 tmp 的 实 部 


re(tmp) 


4 
Ee ey a 10 
40320 720+ 24 + NO) +1 


下 面 对 cos(x) 进 行 泰勒 展开 ， 可 以 看 到 其 各 项 与 上 面 的 结果 一 致 : 


series(cos(x), x, 08, 10) 


> 


Xx 
1- 7 124- 7201+ 40320 


6 
一 -十 O(xl0) 


下 面 获得 tmp 的 虚 部 : 


im(tmp) 


PE es a Prat a 10- 
362880 5040+ 120 T+x+ (oe ) 


其 各 项 也 与 上 面 的 结果 一 致 : 


下 面 对 sin(%) 进 行 泰勒 展 


series(sin(x), x, 86, 10) 


X5 X7 X9 20 
*-61120 5000 + 027560+ OC ) 


由 于 eix 的 展开 公式 的 实 部 和 虚 部 分 别 等 于 cosx 和 sin x， 因 此 验证 了 欧 拉 公式 的 正确 性 。 
6.1.2 ”球体 体积 


在 SciPy 一 章 中 介绍 了 如 何 使 用 数值 定 积分 计算 球体 的 体积 , 而 SymPy 中 的 integrate0 则 可 
以 计算 符号 积分 。 例 如 下 面 的 语句 用 integrate0 做 不 定 积分 运算 : 


integrate(x*sin(x), x) 

—xcos(x) + sin(x) 

如 果 指定 变量 x 的 取 值 范 围 ，integrate0 则 做 定 积分 运算 : 
integrate(x*sin(x), (x, 6, 2*pi)) 


一 2 


为 了 计算 球体 体积 ， 首 先 看 看 如 何 计算 圆 形 面积 。 假 设 圆 形 的 半径 为 r， 则 圆 上 任意 一 点 


的 立 坐 标 函 数 为 : 
yC9 = Vr x 
可 以 直接 对 函数 yCo 在 到 区 间 上 求 定 积分 得 到 半圆 面积 。 下 面 的 程序 计算 该 定 积分 : 
首先 需要 定义 运算 中 所 需 的 符号 ， 用 symbols0 可 以 一 次 创建 多 个 符号 。 定 义 半径 r 时 需要 设置 
positive 参数 为 Tme， 表 示 圆 的 半径 为 正 数 : 


Xx, y = symbols('x, y') 

r= symbols('r', positive=True) 

circle area = 2 * integrate(sqrt(r**2 - x**2), (x, -r, r)) 
Circle area 


Tr 
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赚 下 来 对 此 面积 公式 求 定 积分 ， 就 可 以 得 到 球体 的 体积 , 但 是 随 着 X 轴 坐标 的 变化 ,对 应 
的 切面 半径 会 发 生变 化 。 假 设 X 轴 的 坐标 为 x*， 球 体 的 半径 为 r， 则 x 处 的 切面 的 半径 可 以 使 
前 面 的 公式 y) 计 算出 。 因 此 需要 对 circle_area 中 的 变量 进行 蔡 代 : 


circle_area = circle area.subs(r, sqrt(r**2 - x**2)) 
circle area 


T(r2 一 X2) 
然后 对 circle_area 中 的 变量 x 在 区 间 -r 到 r 上 进行 定 积分 ， 得 到 球体 的 体积 公式 : 
integrate(circle area, (x, -r, r)) 


subs0 可 以 替换 表达 式 中 的 符号 ， 它 有 如 下 3 种 调用 方式 : 

eexpression.subs(x y): 将 算式 中 的 x 替 换 成 y。 

e@ expression.subs({X:yu:v})): 使 用 字典 进行 多 次 替换 。 

eexpression.subs([(xy),(v)]): 使 用 列表 进行 多 次 替换 。 

请 注意 多 次 替换 是 顺序 执行 的 ， 因 此 expression.sub([(x, y), (y, 9]) 并 不 能 对 符号 x 和 y 进行 
交换 。 


6.1.3 ”数值 微分 


所 谓 数值 微分 ， 是 指 根据 函数 在 一 些 离散 点 的 函数 值 ， 推 算 它 在 某 点 的 导数 或 高 阶 导数 的 
近似 值 的 方法 。 例 如 当 h 足够 接近 于 零 时 ， 可 以 使 用 下 面 的 公式 计算 foo 在 x 处 的 导数 f(x): 
f(x + h) — f(x) 

h 

上 面 的 公式 使 用 两 个 函数 值 计算 导数 值 ， 被 称 为 两 点 公式 ， 使 用 的 点 数 越 多 数值 微分 的 精 
度 也 就 越 高 。 可 以 使 用 SymPy 提供 的 as_finite_diff0 自 动 计算 N 点 公式 。 下 面 先 使 用 symbols0 
定义 三 个 符号 对 象 ， 其 中 定义 了 时 设置 dls 参数 为 Function 表示 它 是 表示 数学 函数 的 符号 。 


f(x) = 


x = symbols('x', real=True) 
h = symbols('h', positive=True) 
f = symbols('f', cls=Function) 


f 是 表示 函数 的 符号 ， 而 f09 则 是 自 变量 为 x 的 函数 ， 下 面 调用 其 diff0 方 法 ， 对 x 求 一 阶 
导数 : 


f_diff = f(x).diff(x, 1) 
f_diff 


然后 调用 as_finite_difft0， 将 一 阶 导数 转换 为 使 用 feo0、fx-b、fccr-2sh)、fx-3 冲 ) 表 达 的 4 


expr_diff = as _ finite diff(f diff, [x, x-h, x-2*h, x-3*h]) 
expr_diff 


11 1 3 3 
3 一 于 fr-3h 十 X) 十 2hf -2h 十 X) 一 REK-h +x) 
下 面 以 f(x) = x.e-* 为 例 比 较 数 值 求 导 与 符号 求 导 的 误差 ,首先 使 用 subs0 方 法 将 expr_diff 
中 的 foo 替换 为 目标 函数 ， 并 调用 其 doit0 方 法 计算 导 函 数 : 
Sym_dexpr = f_diff.subs(f(x), x*exp(-x**2)).doit() 
sym_dexpr 
—2x2e-* + e-* 
然后 调用 lambdity0， 将 上 面 的 sym_dexpr 表达 式 转换 为 数值 运算 的 函数 。 其 第 一 个 参数 为 
自 变量 列表 ， 第 二 个 参数 为 运算 表达 式 ， 这 里 将 modules 参数 设置 为 "numpy"， 因 此 sym_dfuncO 
可 以 对 数组 进行 运算 : 


sym_dfunc = lambdify([x], sym_dexpr, modules="numpy") 
sym_dfunc(np.array([-1, 8, 1])) 
array([-6.36787944， 1. ，-6.36787944]) 


由 于 expr_d 首 是 一 个 加 法 表达 式 ， 因 此 通过 其 args 属性 可 以 获得 所 有 的 加 法 项 : 


print expr_diff.args 
(-3*f(-h + x)/h, -f(-3*h + x)/(3*h), 3*f(-2*h + x)/(2*h), 11*f(x)/(6*h)) 


上 面 的 加 法 项 没有 按照 自 变量 从 小 到 大 的 顺序 排列 。 下 面 使 用 通配符 w 和 c 组 成 的 模板 c* 
f(w) 对 每 个 加 法 项 进行 匹配 ， 提 取出 每 项 的 系数 和 函数 参数 : 

w = Wild("w") 

c = Wild("c") 

patterns = [arg.match(c * f(w)) for arg in expr_diff.args] 
每 个 匹配 结果 是 一 个 以 通配符 为 键 的 字典 ， 例 如 下 面 是 第 一 项 的 匹配 结果 ， 它 表示 该 项 的 
系数 为 -3/h， 函 数 f 的 参数 为 -h+x。 


print patterns[6] 
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{w: -h + x, c: -3/h} 


下 面 使 用 通配符 w 的 匹配 结果 计算 出 排序 用 的 键 值 , 并 从 排序 之 后 的 列表 中 选择 出 每 个 匹 


配 结果 中 与 通配符 c 对 应 的 表达 式 : 


Coefficients = [t[c] for t in sorted(patterns, key=lambda t:t[w])] 
print coefficients 
-1/(3*h), 3/(2*h), -3/h, 11/(6*h)] 


下 面 将 系数 表达 式 列 表 中 的 h 替换 为 0.001， 得 到 系数 数组 。 注 意 SymPy 的 浮 点 数 运算 得 


到 的 是 SymPy 中 的 Float 对 象 ， 还 需要 调用 float0 来 将 其 转换 为 Python 的 float 对 象 : 


绝 末 


数 为 order 的 系数 ， 并 绘制 2、3、4 点 公式 对 应 的 误差 曲线 ， 结 果 如 图 6-1 所 示 ， 


数 轴 。 


364 ， 


coeff_ arr = np.array([float(coeff.subs(h, 1e-3)) for coeff in coefficients]) 
print coeff_arr 
[ -333.33333333 ”1566. -3666. 1833.33333333] 


接 下 来 使 用 Numpy 计算 数值 微分 的 值 ， 并 与 sym_dfunc0 的 运算 结果 进行 比较 ， 输 出 最 大 


def moving window(x, size): 
from numpy.1ib.stride tricks import as_strided 
x = np.ascontiguousarray(x) 
return as_strided(x, shape=(x.shape[8] - size + 1, size), 
strides=(x.itemsize, x.itemsize)) 


x_arr = np.arange(-2, 2, le-3) 

y_arr = x_arr * np.exp(-x_arr * x_arr) 

num res = (moving window(y_arr, 4) * coeff_arr).sum(axis=1) 
sym_res = sym dfunc(x_arr[3:]) 

print np.max(abs(num_res - sym_res)) 

4.08944167418e-89 


为 了 比较 点 数 与 误差 之 间 的 关系 , 在 下 面 的 finite_diff_coefficients0 函 数 中 计算 间隔 为 h、 点 
主意 Y 轴 为 对 


def finite diff coefficients(f diff, order, h): 
v = f_diff.variables[8] 
points = [x - i * h for i in range(order)] 
expr_diff = as_ finite diff(f diff, points) 
w = Wild("w") 
c = Wild("c") 
patterns = [arg.match(c*f(w)) for arg in expr_diff.args] 
coefficients = np.array([float(t[c]) 


for t in sorted(patterns, key=lambda t:t[w])]) 
return coefficients 


图 61 比较 不 同 点 数 的 数值 微分 的 误差 


6.2 数学 表达 式 


A 与 本 节 内 容 对 应 的 Notebook 为 : 06-sympy/sympy-200-expression.ipynb。 


本 节 详 细 介绍 数学 表达 式 的 结构 ， 虽 然 这 部 分 内 容 比 较 枯 燥 ， 但 只 有 了 解 表达 式 的 结构 ， 


才能 随心 所 欲 地 对 其 进行 处 理 ， 将 SymPy 运用 到 更 复杂 的 计算 中 。 
6.2.1 符号 
数学 符号 用 Symbol 对 象 表示 ， 符 号 对 象 的 name 属性 是 符号 名 , 符号 名 在 显示 


符号 构 


成 的 表达 式 时 使 用 。Symbol 对 象 的 符号 名 和 Python 的 变量 名 没有 内 在 联系 , 但 是 为 了 使 用 起 来 


方便 ， 通 常 让 变量 名 与 符号 名 相同 。 为 了 快速 创建 符号 以 及 与 之 同名 的 变量 ， 可 以 使 用 


例如 : 


print var("x8,y8,x1,y1") 
(x@, ye, x1, y1) 


了 | 


上 而 的 语句 创建 了 名 为 x0、y0、x1、y1l1 的 4 个 Symbol 对 象 ， 


var0， 


时 在 当前 名 称 空间 中 创建 


了 4 个 名 为 x0、y0、x1、y1 的 变量 来 分 别 表 示 这 些 Symbol 对 象 。 因 为 符号 对 象 在 转换 为 字符 
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串 时 直接 使 用 name 属性 ， 因 此 在 交互 式 环境 中 看 到 变量 x0 显示 的 值 就 是 x0: 


type(x6) Xx9.name type(x6e.name) 


sympy.core.symbol.Symbol “x6" str 


在 交互 环境 中 使 用 var0 能 快速 创建 变量 和 Symbol 对 象 ， 但 在 程序 中 使 用 容易 引起 混淆 ， 
这 时 可 以 使 用 symbols0 创 建 Symbol 对 象 ， 再 将 它们 显 式 地 赋值 给 变量 : 


x1, yl = symbols("x1, y1") 
type(x1) 
sympy .core.symbol.Symbol 


然 ， 如 果 不 嫌 麻烦 也 可 以 直接 使 用 Symbol 类 创建 对 象 


x2 = Symbol("x2") 


变量 名 和 符号 名 当然 也 可 以 是 不 一 样 的 ， 下 面 使 用 变量 t 表 示 符 号 x0， 然 后 创建 两 个 名 为 
alpha 和 beta 的 符号 , 并 用 变量 a 和 b 分 别 表示 。 当 符 号 使 用 希腊 字母 名 时 , 可 以 显示 为 希腊 字母 。 


t=x0 
a, b = symbols("alpha, beta") 
sin(a) + sin(b) + 七 


xo + sin(a) + sin(B) 


数学 公式 中 的 符号 一 般 都 有 特定 的 假设 , 例如 m、n 通常 是 整数 , 而 z 经 常用 来 表示 复数 。 
在 用 var0、symbols0 或 Symbol0 创 建 Symbol 对 象 时 ， 可 以 通过 关键 字 参 数 指定 所 创建 符号 的 假 
设 条 件 ， 这 些 假设 条 件 会 影响 到 它们 所 参与 的 计算 。 例 如 ， 下 面 创建 了 两 个 整数 符号 m 和 nm 以 
及 一 个 正 数 符号 x 


m, Nn = Symbols("m, n", integer=True) 

x = Symbol("x", positive=True) 

每 个 符号 都 有 许多 is_* 属 性 ， 用 以 判断 符号 的 各 种 假设 条 件 ， 在 IPython 中 使 用 自动 完成 
功能 可 以 快速 查看 这 些 假设 的 名 称 。 注 意 下 划 线 后 为 大 写字 母 的 属性 用 来 判断 对 象 的 类 型 ， 而 
全 小 写字 母 的 属性 则 用 来 判断 符号 的 假设 条 件 。 


[attr for attr in dir(x) if attr.startswith("is _") and attr.lower() == attr] 
[ "is_algebraic ' ， 

"is algebraic expr', 

"is_antihermitian', 

'is_bounded', 


在 下 面 的 判断 中 ，x 是 一 个 符号 对 象 ， 它 是 一 个 正 数 ， 因 为 它 可 以 比较 大 小 ， 所 以 它 不 是 
虚数 。x 是 一 个 复数 ， 因 为 复数 包括 实数 ， 而 实数 包括 正 数 。 


x.is Symbol x.is positive x.is imaginary x.is_complex 


True True FalseTrue 


使 用 assumptions0 属性 可 以 快速 查看 所 有 的 假设 条 件 ， 其 中 commutative 为 True 表示 该 符 
号 满足 交换 律 ， 其 余 的 假设 条 件 根据 英文 名 很 容易 知道 它们 的 含义 ， 这 里 就 不 再 详细 叙述 了 。 


x.assumptions@ 

{'commutative': True, 'complex': True, 'hermitian': True, 
"imaginary': False, "negative' : False, "nonnegative ' : True， 
"nonpositive' : False, “nonzero ' : True， "positive': True， 
"real ' : True， “zero' : False} 


在 SymPy 中 所 有 的 对 象 都 从 Basic 类 继承 , 实际 上 这 些 is_* 属 性 和 assumptions0 属性 都 是 在 
Basic 类 中 定义 的 : 


Symbol.mro() 
[sympy.core.symbol.Symbol， 
sympy.core.expr.AtomicExpr， 
sympy.core.basic.Atom, 
sympy. core.expr .Expr, 
sympy.1logic.boolalg.Boolean, 
sympy.core.basic.Basic, 
sympy.core.evalf.EvalfMixin, 
object] 


6.2.2 数值 


为 了 实现 符号 运算 ， 在 SymPy 内 部 有 一 整套 数值 运算 系统 ， 因 此 SymPy 的 数值 和 Python 
的 整数 、 浮 点 数 是 完全 不 同 的 对 象 。 为 了 使 用 方便 ，SymPy 会 尽量 自动 将 Python 的 数值 类 型 
转换 为 SymPy 的 数值 类 型 。SymPy 提供 了 一 个 S 对 象 以 方便 用 户 快速 将 Python 的 数值 转换 成 
SymPy 的 数值 。 在 下 面 的 例子 中 ， 当 有 SymPy 的 数值 参与 计算 时 ， 结 果 也 为 SymPy 的 数值 


对 象 ; 


1/2 + 1/3 S(1)/2 + 1/S(3) 
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3 是 Rational 对 象 , 它 由 两 个 整数 的 商 表示 , 数学 上 称 之 为 有 理 数 。 也 可 以 直接 通过 Rational 
创建 : 


type(S(5)/6) 
sympy.core.numbers.Rational 


Rational(5，18) # 有 理 数 会 自动 进行 约 分 处 理 


1 
2 


实数 用 Float 对 象 表 示 ， 它 和 标准 的 浮 点 数 类 似 , 但 是 它 的 精度 (有 效 数字 ) 可 以 通过 参数 指 
定 。 由 于 在 浮 点 数 或 Float 对 象 内 部 都 使 用 二 进 制 方式 表示 数值 ， 因 此 它们 都 可 能 无 法 精确 表 
示 十 进 制 中 的 精确 小 数 。 可 以 使 用 NO 查看 浮 点 数 的 实际 数值 ， 例 如 下 面 的 语句 查看 浮 点 数 0.1 
和 10000.1 的 60 位 有 效 数字 ， 可 以 看 到 数值 的 绝对 精度 随 着 数值 的 增 大 而 减 小 : 


print N(8.1，66) 

print N(16660.1, 60) 
8.1666666666666666865551115123125782762118158346454161562566666 
16666.166666666666363797886769171295166615625686686686866686686666 


因为 浮 点 数 的 精度 有 限 ， 所 以 在 使 用 它 创建 Float 对 象 时 ， 即 使 指定 精度 参数 也 不 能 缩小 
它 与 理想 值 之 间 的 误差 ， 这 时 可 以 使 用 字符 串 表示 数值 : 


print N(Float(8.1，68)，68) # 用 浮 点 数 创建 Real 对 象 时 ， 精 度 和 浮 点 数 相同 
print N(Float("8.1"，66)，66) # 用 字符 串 创建 Real 对 象 时 ， 所 指定 的 精度 有 效 
print N(Float("6.1"，68)，65) # 精 度 再 高 ， 也 不 是 完全 精确 的 
8.1668666686666886665551115123125782762118158346454161562566668 

6.16668 


@.099999999999999999999999999999999999999999999999999999999999996111 


NO 可 以 将 数值 算式 按照 指定 精度 转换 成 Float 对 象 ， 下 面 计算 x 和 V2 的 50 位 精度 的 浮 点 
数值 ; 
print N(Pi，56) 
print N(sqrt(2)，56) 
3.1415926535897932384626433832795828841971693993751 
1.41421356237369564886168872426969868785696718753769 


6.2.3 ”运算 符 和 函数 


SymPy 重 新 定义 了 所 有 的 数学 运算 符 和 数学 函数 .例如 Add 类 表示 加 法 ,Mul 类 表示 乘法 ， 


而 Pow 类 表示 指数 运算 , sin 类 表示 正弦 函数 .和 Symbol 对 象 一 样 , 这 些 运算 符 和 函数 都 从 Basic 
类 继承 ， 请 读者 自行 在 IPython 中 查看 它们 的 继承 列表 ， 例 如 Add.mro0。 可 以 使 用 这 些 类 创建 
复杂 的 表达 式 : 


var("x, y, z") 
Add(x, y, z) 


x+y+z 
Add(Mul(x, y, z), Pow(x, y), sin(z)) 
xyz + xY + sin(z) 
由 于 在 Basic 类 中 重新 定义 了 _ add_0 等 操作 符 相 关 的 魔法 方法 ， 因 此 可 以 使 用 和 Python 
表达 式 相同 的 方式 创建 SymPy 的 表达 式 : 
Xx*y*z + x**y + sin(z) 
XxyzZ + xY + sin(z) 
在 Basic 类 中 定义 了 两 个 很 重要 的 属性 : func 和 args。func 属 性 得 到 对 象 的 类 ， 而 args 得 到 
其 参数 。 使 用 这 两 个 属性 可 以 观察 SymPy 所 创建 的 表达 式 。 也 许 读者 会 对 没有 减法 运算 类 感到 
奇怪 ， 下 面 让 我 们 看 看 减法 运算 所 得 到 的 表达 式 : 


t.func t.args t.args[8].func t.args[8].args 


sympy.core.add.Add (-y, x) sympy.core.mul.Mul (-1, y) 


通过 上 面 的 例子 可 以 看 出 ， 表 达 式 x-y 在 SymPy 中 实际 上 是 用 Add(Mul(-1, y), x) 表 示 的 。 
同样 ，SymPy 中 没有 除法 类 ， 请 读者 使 用 和 上 面相 同 的 方法 观察 x / y 在 SymPy 中 是 如 何 表 
示 的 。 

SymPy 的 表达 式 实际 上 是 一 个 由 Basic 类 的 各 种 对 象 多 层 嵌 套 结构 的 树 状 结构 。 使 用 
dotprint0 可 以 将 表达 式 转换 成 Graphviz 的 DOT 语言 描述 的 图 形 , 使 用 本 书 提供 的 9odot 命令 可 以 


将 其 显示 在 Notebook 中 。 图 62 显示 了 表达 式 xy 宅 二 的 结构 ; 
from sympy.printing.dot import dotprint 


graph = dotprint(x * y * sqrt(x ** 2 - y ** 2) / (x + y)) 
%dot -f svg graph 
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图 6-2 表达 式 的 树 状 结构 


由 于 Basic 对 象 的 args 属性 类 型 是 元 组 ， 因 此 表达 式 一 旦 创建 就 不 能 再 改变 。 使 用 不 可 变 
的 结构 表示 表达 式 有 很 多 优点 ， 例 如 可 以 用 表达 式 作 为 字典 的 键 。 

除了 使 用 SymPy 中 预先 定义 好 的 具有 特殊 运算 含义 的 数学 函数 之 外 ,还 可 以 使 用 Function0 
创建 自 定义 的 数学 函数 : 


f = Function("f") 


注意 Function 虽然 是 一 个 类 ， 但 是 上 面 的 语句 所 得 到 的 f 并 不 是 Function 类 的 实例 。 和 预 
定义 的 数学 函数 一 样 ，f 是 一 个 类 ， 它 从 Function 类 继承 : 

issubclass(f, Function) 

True 


当 用 f 创 建 一 个 表达 式 时 ， 就 相当 于 创建 它 的 一 个 实例 : 


t = f(x, y) 
type(t) t.func t.args 


f 的 实例 t 可 以 参与 表达 式 运算 : 
让 


f2(%,y) + f(x,y) 


6.2.4 通配符 


使 用 通配符 可 以 创建 匹配 特定 表达 式 的 模板 。 例 如 在 下 面 的 例子 中 ，a 和 b 是 Wild 通配符 
对 象 ，a*b 兴 2 是 由 这 两 个 通配符 创建 的 表达 式 模板 。 调 用 表达 式 对 象 的 match0 方 法 以 使 用 指 
定 的 模板 匹配 表达 式 。 它 返回 一 个 键 为 道 配 符 、 值 为 与 该 通配符 匹配 的 子 表达 式 的 字典 。 


执行 Sympy 提供 的 init_printing0 可 以 使 用 数学 符号 显示 运算 结果 ,但 会 将 Python 的 内 
几 置 对 象 也 转换 成 LateX 显示 。 为 了 编写 方便 ， 本 书 使 用 一 般 文本 显示 内 置 对 象 ， 而 用 
本 书 提供 的 %sympy_latex 魔法 方法 将 内 置 对 象 转换 为 LaTeX。 


x, y = symbols("x, y") 

a = Wild("a") 

b = Wild("b") 

%sympy_latex (3 * x * (x + y)**2).match(a * b**2) 


{a: 3x, b:x+y} 
而 find0 方 法 则 在 表达 式 的 树 状 结构 中 搜索 所 有 与 模板 匹配 的 子 树 。 下 面 在 x3 + 3x?y 十 
3xy? 十 y3 中 搜索 与 模板 匹配 的 所 有 子 表达 式 : 
expr = expand((x + y)**3) 


%sympy_latex expr 
%sympy_latex expr.find(a * b**2) 


x3+ 3x2y 十 3xy2 +y3 
{2,3,X,X2, x3,y, yy, 3xy2, 3x?y, x3 + 3x2y + 3xy? + y3} 


整数 2 居然 也 与 模板 匹配 , 这 有 些 出 乎 意外 , 我 们 使 用 下 面 的 find_match0 输 出 所 有 子 表达 
式 的 与 模板 匹配 的 结果 ， 如 表 6-1 所 示 : 


def find_match(expr, pattern): 
return [e.match(pattern) for e in expr.find(pattern)] 


find_match(expr，a * b**2) 


表 6-1 与 表达 式 的 匹配 结果 一 
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( 续 表 ) 
表达 式 匹配 结果 
沽 {a: 1, b: Vx} 


a:1, b: Vx3 + 3x2y + 3xy? + y3 


3 
x3 | 
3x2y {a: 3y, b: x} 
y? far bi 
y? {Lb 
X2 a:1, b:X 


由 上 面 的 结果 可 知 ， 在 模板 与 表达 式 匹 配 的 过 程 中 SymPy 会 对 表达 式 进 行 变换 ， 找 到 数 
学 意义 上 正确 匹配 的 结果 。 为 了 剔除 掉 这 些 由 表达 式 变换 而 得 到 的 结果 ， 可 以 在 定义 通配符 时 


a = Wild("a", exclude=[1]) 


find_match(expr, a * b**2) 


使 用 exclude 参数 指定 不 能 匹配 的 对 象 列表 。 


b = Wild("b", exclude=[1, Pow]) 


当 与 通配符 匹配 的 表达 式 中 包含 该 参数 中 的 任何 
对 象 时 ， 匹 配 都 会 失败 。 下 面 的 通配符 a 和 b 都 不 能 包含 整数 1， 而 b 不 能 包含 指数 运算 ， 注 
意 在 SymPy 中 开平 方 使 用 指数 表达 式 表示 ， 见 表 6-2。 


表 6-2 与 表达 式 的 匹配 结果 二 


可 以 使 用 replace( 方 法 对 表达 式 中 的 子 表达 式 进 行 蔡 换 ， 例 如 下 面 将 所 有 与 a * bss2 匹配 


的 子 表达 式 替 换 为 (a+b)#s%2: 


expr.replace(a * b**2, (a + b)**2) 


4x? + 4y? + (x + 3y)? + (3x + y)? 


使 用 WildFunction 可 以 定义 与 任意 函数 匹配 的 通配符 。 在 下 面 的 例子 中 , f 与 exp、sin 和 
abs 这 三 个 函数 匹配 ， 匹 配 结果 包含 函数 的 参数 。 而 指数 运算 则 被 当 作 运算 符 ，sqrt 实 际 上 使 用 


指数 运算 表示 ， 它 们 都 不 与 匹配 ， 见 表 6-3: 
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expr = sqrt(x) / sin(y**2) + abs(exp(x) * x) 
find_match(expr, f) 


表 6-3 与 表达 式 的 匹配 结果 三 


6.3 符号 运算 


会 与 本 节 内 容 对 应 的 Notebook 为 : 06-sympy/sympy-300-calculations.ipynb 


SymPy 所 提供 的 符号 运算 功能 十 分 丰富 ， 由 于 篇 幅 受 限 ， 本 节 只 能 简单 介绍 SymPy 的 一 
些 常 用 的 符号 运算 功能 。 


6.3.1 ”表达 式 变换 和 化 简 
simplify0 可 以 对 数学 表达 式 进行 化 简 ， 例 如 ;: 
simplify((xX + 2) ** 2 - (x + 1) ** 2) 
2x+3 


simplity0 调 用 SymPy 内 部 的 多 种 表达 式 变换 函数 来 对 其 化 简 。 但 是 数学 表达 式 的 化 简 是 一 
件 非常 复杂 的 工作 , 对 于 同一 个 表达 式 , 根据 其 使 用 目的 可 以 有 多 种 化 简 方 案 。 本 节 介 绍 SymPy 
提供 的 各 种 表达 式 变换 函数 ， 充 分 利用 这 些 函 数 可 以 实现 表达 式 的 变换 和 化 简 。 

radsimp0 对 表达 式 的 分 母 进行 有 理化 ， 结 果 中 的 分 母 部 分 不 含 无 理 数 。 例 如 : 


radsimp(1 / (sqrt(5) + 2 * sqrt(2))) 


3(-V5+2V3) 


也 可 以 对 带 符号 的 表达 式 进行 处 理 : 


radsimp(1 / (y * sqrt(x) + x * sqrt(y))) 


—Vxy + xVy 
xy(x —y) 


ratsimp0 对 表达 式 中 的 分 母 进行 通 分 运算 ， 即 将 表达 式 转换 为 分 子 除 分 母 的 形式 : 
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ratsimp(x / (x + y)+y/ (x-y)) 
2y? 
X2 y? 


站 入 


fraction0 返 回 包 含 表 达 式 的 分 子 与 分 母 的 元 组 ， 用 它 可 以 获得 ratsimp0 通 分 之 后 的 分 子 或 


%sympy_latex fraction(ratsimp(1 / x + 1 / y)) 

(x+y, xy) 

请 注意 fraction0 不 会 自动 对 表达 式 进行 通 分 运算 ， 因 此 : 

%sympy_latex fraction(1 / x + 1 / y) 

6+z 

cancel0 对 分 式 表达 式 的 分 子 分 母 进行 约 分 运算 ， 去 除 它们 的 公 因 式 : 

cancel((x ** 2 - 1) / (1 + x)) 

x—1 

apart0 对 表达 式 进行 部 分 分 式 分 解 ， 它 将 一 个 有 理 函数 变 为 数 个 分 子 及 分 母 次 数 较 小 的 有 
理 函数 。 下 面 用 它 将 传递 函数 -二 一 分 解 为 两 个 次 数 较 小 的 传递 函数 之 和 : 


s3+s2+s+1 


s = Symbols("s") 
trans_func = 1/(s**3 + s**2 + S + 1) 
apart(trans_func) 


和 1 
257 十 2 ”2s 十 2 


trigsimp0 化 简 表 达 式 中 的 三 角 函 数 ， 通 过 method 参数 可 以 选择 化 简 算 法 : 
trigsimp(sin(x) ** 2 + 2 * sin(x) * cos(x) + cos(x) ** 2) 


sin(2x) + 1 


expand_trig0 展 开 三 角 函 数 表达 式 : 


expand_trig(sin(2 * x + y)) 


(2cos?(x) — 1)sin(y) + 2sin(x)cos(x)cos(y) 


expand0 根 据 用 户 设置 的 标志 参数 对 表达 式 进 行 展 开 。 默认 情况 下 , 表 64 中 的 标志 参数 为 


True: 


表 6-4 标志 参数 一 


标志 表达 式 结果 说 明 
mul expand(x*(y +7)) Xy+ xz 展开 乘法 
log expand(log(x*y**2)) log(xy’) 展开 对 数 函 数 的 参数 中 的 乘积 
和 昧 运算 
multinomial expand((x + y)**3) x3 十 3xzy 十 3xy2 十 y3 展开 加 减法 表达 式 的 整数 次 堪 
power_base expand((x*y)**z) (xy)z 展开 早 函 数 的 底数 乘积 
power_exp expand(x**(y+ 2)) XYxz 展开 对 备 函 数 的 指数 和 


可 以 将 默认 为 Tmue 的 标志 参数 设置 为 False, 不 展开 与 之 对 应 的 表达 式 。 在 下 面 的 例子 中 ， 
将 mul 设置 为 False， 因 此 不 展开 乘法 : 

x, y, z = symbols("x,y,z", positive=True) 

expand(x * log(y * z), mul=False) 

x(log(y) + log(z)) 


expand0 的 表 6-5 中 的 标志 参数 默认 为 False: 


表 6-5 标志 参数 二 
| | 纺 a | 
| epiory | 网 
上 特殊 函数 进行 展开 
展开 三 角 丽 数 


e complex: 展开 复数 的 实 部 和 虚 部 。 


x, y = Symbols("x,y", complex=True) 
expand(x * y, complex=True) 


RxRy + RxSy + RyIx 一 SxSy 
e func: 对 一 些 特殊 函数 进行 展开 。 


expand(gamma(1 + x), func=True) 


xT(x) 

. trig: 展开 三 角 函 数 。 
expand(sin(x + y), trig=True) 
sin(x)cos(y) + sin(y)cos(x) 


expand_ log0、expand_mul0、expand_complex0、expand_trig0、expand_funcO 等 函数 则 通过 将 
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相应 的 标志 参数 设置 为 Tme 来 对 expand0 进 行 包 装 。 
factor0 可 以 对 多 项 式 表 达 式 进行 因 式 分 解 : 


TCR 村 

(3x—2y)(5x—1) 

collect0 收 集 表达 式 中 指定 符号 的 有 理 指数 次 窜 的 系数 。 下 面 用 它 获取 表达 式 eq 中 x 的 各 
次 宕 的 系数 。 首 先 需要 对 表达 式 进 行 展 开 ， 得 到 一 系列 乘 式 之 和 ， 然 后 调用 collect0 对 x 的 蜂 的 
系数 进行 收集 : 


eq= (1l+a* xX)** 3+ (1+b*x) **2 
eq2 = expand(eq) 
collect(eq2, x) 


a3x3 十 X2(3a2 +b?)+x(3a+2b)+2 

在 默认 参数 的 情况 下 ，collect0 返 回 的 是 一 个 整理 之 后 的 表达 式 。 如 果 希 望 得 到 x 的 各 次 窜 
的 系数 ， 可 以 设置 参数 evaluate 为 False， 让 它 返 回 一 个 以 x 的 突 为 键 、 以 系数 为 值 的 字 
意 常数 项 对 应 的 键 为 SymPy 中 的 符号 对 象 1， 因 此 需要 使 用 S(1) 作 为 键 : 


° 
i 


p = collect(eq2, x, evaluate=False) 

p[S(1)] p[x**2] 

2 和 

也 可 以 使 用 coeff0 方 法 获得 系数 ， 下 面 分 别 获得 常数 项 和 x 的 系数 : 


eq2.coeff(x, 80) eq2.coeff(x, 2) 


I aar2 + be 

collect0 也 可 以 收集 表达 式 的 各 次 容 的 系数 ， 例 如 下 面 的 程序 收集 表达 式 sin2x 的 系数 : 
collect(a * sin(2 * x) + b * sin(2 * x), sin(2 * x)) 

(atb)sin(2x) 


6.3.2 方程 


在 SymPy 中 表达 式 可 以 直接 表示 值 为 0 的 方程 ， 也 可 以 使 用 Eq0 创 建 方 程 。solve0 可 以 对 
方程 进行 符号 求解 ， 它 的 第 一 个 参数 是 表示 方程 的 表达 式 ， 其 后 的 参数 是 表示 方程 中 未 知 变量 
的 符号 。 下 面 的 例子 使 用 solve0 对 一 元 二 次 方程 进行 求解 : 


a，b，c = symbols("a,b,c") 
%sympy_latex solve(a + x ** 2+b*x+c, x) 


革 (Cb+Vaacro, -二 (+VCacro| 


于 方程 的 解 可 能 有 多 组 ， 因 此 solve0 返 回 一 个 保存 所 有 解 的 列表 。 可 以 传递 包含 多 个 表 
达 式 的 元 组 或 列表 来 让 solve0 对 方程 组 求解 ， 得 到 的 解 是 两 层 嵌 套 的 列表 ， 其 中 的 每 个 元 组 表 
示 方 程 组 的 一 组 解 : 


%sympy_latex solve((X ** 2+X*y+1,y**2+xXx*y+2), x,y) 


Ee 


roots0 可 以 计算 单 变量 多 项 式 的 根 : 


%sympy_latex roots(x**3 - 3*x**2 + X + 1) 
{1:1, 1+V2:1, -V2+1:1} 


6.3.3 微分 


Derivative 是 表示 导 函 数 的 类 , 它 的 第 一 个 参数 是 需要 进行 求 导 的 表达 式 , 第 二 个 参数 是 求 
导 的 自 变量 。 请 注意 Derivative 所 得 到 的 是 一 个 导 函 数 ， 它 并 不 会 进行 求 导 运算 : 


t = Derivative(sin(x), x) 
二 


全 
ere) 


调用 其 doit0 方 法 可 计算 求 导 的 结果 : 
t.doit() 

cos(x) 

也 可 以 直接 使 用 diff0 函 数 或 表达 式 的 diff0 方 法 来 计算 导 函 数 : 
diff(sin(2*x), x) 

2cos(2x) 


使 用 Derivative 对 象 可 以 表示 自 定义 的 数学 函数 的 导 函 数 ， 例 如 : 


Derivative(f(x), x) 


d 
f(x) 


于 SymPy 不 知道 如 何 对 自 定义 的 数学 函数 进行 求 导 ， 因 此 diff0 会 返回 和 上 面相 同 的 结 
果 。 添 加 更 多 的 自 变量 符号 参数 可 以 表示 高 阶 导 函 数 ， 例 如 : 
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Derivative(f(x)，x，x，x) # 也 可 以 写作 Derivative(f(x)，x，3) 
ds 
五 各 


也 可 以 对 不 同 的 自 变量 符号 计算 偏 导数 : 
Derivative(f(x, y), x, 2, y, 3) 


05 
Br7 Oy3 sty) 
diff0 的 参数 和 Derivative 相同 ， 例 如 下 面 的 程序 计算 函数 sin(xy) 对 x 两 次 求 导 、 对 y 三 
求 导 的 结果 : 
GER(Sin (Ky x2 3) 
x(x2y2cos(xy) + 6xysin(xy) — 6cos(xy)) 


6.3.4 ”微分 方程 


golve0 风 浊 微 分 方程 进行 符号 求解 。 它 的 第 一 个 参数 是 带 未 知 函数 的 表达 式 , 第 二 个 参 
数 是 需要 进行 求解 的 未 知 函数 。 例 如 下 面 的 程序 对 微分 方程 f'(x) 一 f(x) = 0 进行 求解 。 所 得 到 
的 结果 是 一 个 自然 指数 函数 ， 它 有 一 个 待定 系数 C1 。 

x=symbols('x') 


f=symbols('f', cls=Function) 
dsolve(Derivative(f(x), x) - f(x), f(x)) 


f(x) = Cie* 


不 同形 式 的 微分 方程 需要 使 用 不 同 的 解法 ， 使 用 classify_ode0 可 以 查看 与 指定 微分 方程 对 
应 的 解法 列表 。 下 面 查看 方程 f'(x) + f(x) = (cos(x) 一 sin(x)) f(x)? 对 应 的 解法 : 


eq = Eq(f(x).diff(x) + f(x), (cos(x) - sin(x)) * f(x)**2) 
classify_ode(eq, f(x)) 
('1st_power_series', 'lie group') 


可 以 通过 dsolve0 的 hint 参数 指定 解法 ， 默 认 值 为 default， 表 示 采 用 classify_ode0 返 回 值 中 
的 第 一 个 解法 : 


dsolve(eq, f(x)) 


Ce Cr Ot Co 
2 6 4 + 了 20 


f(x) = Cl 一 (-Ci(Ci 一 3) -Ci(C +1) +4Ci +12) 二 O(Cx5) 


上 面 的 解 是 采用 泰勒 级 数 展 开 之 后 的 结果 。 如 果 使 用 ie_group 解 法 ， 则 可 以 得 到 更 简洁 的 
结果 : 


dsolve(eq, f(x), hint="lie group") 


1 


fo = Ciex — sin(x) 


也 可 以 将 hint 设置 为 al， 让 dsolve0 尝 试 assify_ode0 返 回 的 所 有 解法 : 
dsolve(eq, f(x), hint="all") 
{'1st_power series': f(x) == C1 - Cl*x**2/2 - Cl*x**3/6 + Cl*x**4/4 + Cl*xX**5*(-Cl*(C1 - 
3) - CI*(C1 + 1) + 4*C1 + 12)/128 + 0O(x**6), 
‘best': f(x) == C1 - C1l*x**2/2 - Cl*x**3/6 + Cl*x**4/4 + Cl*x**5*(-C1*(C1 - 3) - C1*(C1 
+ 1) + 4*C1 + 12)/120 + O(x**6), 
"best_hint': '1st power series', 
'default': '1st power_series', 
"lie group': f(x) == 1/(Cl*exp(x) - sin(x)), 
'order': 1} 


通过 sympy.ode.allhints 可 以 查看 系统 支持 的 所 有 解法 : 


sympy.ode.allhints 

('separable', 
'1st_exact', 
'1st_linear', 
'Bernoulli', 


6.3.5 积 


integrate0 可 以 计算 定 积分 和 不 定 积分 : 
eintegrate(f, x): 计算 不 定 积分 / fdx 


eintegrate(f, (Xx, a, b): 计算 定 积 分 / 后 fdx 

如 果 要 对 多 个 变量 计算 多 重 积分 ， 只 需要 将 被 积分 的 变量 依次 列 出 即 可 
e integratedf, x y): 计算 双重 不 定 积 分 [fdxdy 

。 integrate(f, Co a, b), Gy, c,d)): 计算 双重 定 积分 /J fdxdy 


和 Derivative 对 象 表示 微分 表达 式 类 似 , Integral 对 象 表示 积分 表达 式 , 它 的 参数 和 integrate0 
的 类 似 ， 例 如 : 
e = Integral(x*+sin(x), x) 
e 


f xsin(x) dx 
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调用 积分 对 象 的 doit0 方 法 以 进行 积分 运算 : 


e.doit() 


—xcos(x) + sin(x) 


有 些 积分 表达 式 无 法 进行 符号 化 简 ， 这 时 可 以 调用 求 值 方法 evalf0 或 求 值 函数 NO 来 对 
进行 数值 运算 : 


e2 = Integral(sin(x)/x, (x, 8, 1)) 
e2.doit() 


Si(1) 
doit0 返 回 的 是 一 个 用 特殊 函数 表示 的 值 。 下 面 用 evalf0 求 其 数值 : 


print e2.evalf() 

print e2.evalf(56) # 可 以 指定 精度 

8.946683676367183 
8.94668367836718381494135331382317965781233795473811 


于 加 的 积分 被 定义 为 一 个 特殊 函数 ， 它 从 0 到 无 穷 的 定 积分 值 为 x/2， 即 : 
”Sin(X) 
= m2 


但 是 SymPy 的 数值 计算 功能 还 不 够 强大 ， 不 能 对 应 这 种 情况 的 定 积分 : 


e3 = Integral(sin(x)/x, (x, 0, 00)) 
e3.evalf() 


一 4.0 
而 调用 doit0 则 能 计算 出 精确 的 符号 结果 : 
e3.doit() 


6.4 输出 符号 表达 式 


A 与 本 节 内 容 对 应 的 Notebook 为 : 06-sympy/sympy-400-outputipynb。 


SymPy 可 以 将 表达 式 输出 成 各 种 格式 ， 除 了 诸如 LaTeX、MathML 等 显示 用 的 格式 之 外 ， 
还 可 以 将 表达 式 转换 成 Python、C、EFortran 函数 ， 从 而 将 符号 表达 式 转换 成 数值 运算 函数 。 


6.4.1 lambdify 


lambdify0 可 将 表达 式 转换 为 数值 运算 函数 。 它 的 第 一 个 参数 是 作为 参数 的 符号 序列 ， 第 二 
个 参数 是 表达 式 或 表达 式 序列 。 例 如 下 面 用 solve0 得 到 一 元 二 次 方程 的 两 个 符号 解 
quadratic_roots， 然 后 调用 lambdify0 将 其 转换 成 数值 运算 函数 : 


a, b, c¢, x = Symbols("a，b，c，Xx"，real=True) 

quadratic_ roots = solve(a*x**2 + b*x + c, x) 

lam quadratic roots real = lambdify([a, b, c], quadratic roots) 
lam quadratic roots real(2, -3, 1) 

[1.6, 8.5] 


所 创建 的 函数 默认 使 用 math 模块 中 定义 的 数值 函数 ， 因 此 无 法 计算 根 为 复数 的 方程 。 可 
以 通过 modules 参数 指定 表达 式 中 函数 所 在 的 模块 。 下 面 改 用 cmath 模块 中 的 sqrt0 函 数 ， 因 此 
可 以 得 到 复数 结果 : 


import cmath 

lam_quadratic_roots_complex = lambdify((a, b, c¢), quadratic_roots, modules=cmath) 
lam_quadratic_roots_complex(2, 2, 1) 

[(-8.5+6.5j)，(-6.5-6.5j)] 


还 可 以 使 用 numpy 模块 中 的 函数 计算 多 个 一 元 二 次 方程 的 解 。 由 于 NumPy 中 的 部 分 函数 
名 与 SymPy 中 的 函数 名 不 同 ， 因 此 下 面 的 程序 中 使 用 字符 串 numpy 表 示 numpy 模块 ， 这 样 
lambdify0 会 在 其 内 部 对 函数 名 进行 自动 转换 。 下 面 的 程序 计算 4 个 一 元 二 次 方程 的 解 ， 为 了 得 
到 复数 解 ， 需 要 使 用 dtype 为 complex 的 系数 数组 ， 运 算 结果 是 两 个 长 度 为 4 的 数组 : 


lam_quadratic_roots numpy = lambdify((a, b, c¢), quadratic_roots, modules="numpy") 
A = np.array([2, 2, 1, 2], np.complex) 
B = np.array([1, 4, 2, 1], np.complex) 
C= np.array([1, 1, 1, 2], np.complex) 
lam_quadratic_roots_numpy(A, B, C) 
[array([-8.25666666+68.66143783j，-6.29289322+6.j 人 

-1.66666666+6.] ，-6.25666666+6.96824584j] )， 
array([-6.25666666-6.66143783j，-1.76716678+6.]j 

-1.66666666+68.]j ，-6.25666666-6.96824584j])] 


6.4.2 用 autowrap() 编 译 表达 式 


lambdify0 将 表达 式 转 换 成 Python 的 函数 。 然 而 对 于 需要 大 量 运 算 的 表达 式 , Python 函数 的 
运算 能 力 有 限 。 如 果 希 望 更 快 的 运算 速度 , 可 以 使 用 aatowrap0 将 表达 式 转换 成 C 语言 或 Fortran 
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语言 的 函数 ， 并 编译 为 扩展 模块 以 供 Python 调 

下 面 先 将 保存 两 个 解 表达 式 的 列 表 转 换 为 表示 外 降 的 Matrix 对 象 matrix_roots， 然 后 调 
autowrap0 将 matrix_roots 转换 为 两 个 函数 ， 注 意 这 两 个 函数 只 能 返回 实数 解 。 通 过 backend 参数 
可 以 指定 编译 扩展 模块 的 方式 : 

e@ Tf2py: 默认 值 ， 使 用 f2py 将 Fortran 语言 程序 包装 成 扩展 模块 。 

e@ cython': 使 才 程 序 包装 成 扩展 模块 。 

为 了 让 autowrap0 正 常 工作 ， 需 要 通过 tempdir 参 数 设置 保存 临时 文件 的 路 径 ， 可 以 在 该 路 
径 下 找到 输出 的 源 程序 以 及 编译 之 后 的 扩展 模块 。 可 以 通过 flags 参数 指定 额外 的 编译 命令 ， 这 
里 通过 工 将 NumPy 头 文件 所 在 的 路 径 添加 进 编译 器 的 头 文件 搜索 路 径 。 


from sympy.utilities.autowrap import autowrap 

matrix_roots = Matrix(quadratic_roots) 

quadratic roots f2py = autowrap(matrix_roots，args=[a，b，c]，tempdir=r" .Ntmp") 

quadratic_roots_cython = autowrap(matrix_roots, args=[a, b, c], tempdir=r".\tmp", 
backend="cython", flags=["-I" + np.get_include()]) 

quadratic_roots_f2py(2, -3, 1) quadratic roots_ cython(2, -3, 1) 


还 可 以 使 用 ufuncify0 将 表达 式 包装 为 NumPy 的 ufunc 函数 。 由 于 不 支持 将 Matrix 对 象 作为 
输出 ， 这 里 将 其 中 的 第 一 个 解 表达 式 转换 为 ufunc 函数 : 


from sympy.utilities.autowrap import ufuncify 
quadratic_roots_ufunc = ufuncify((a，b，c)，quadratic_roots[6]，tempdir=r".\tmp") 


quadratic_roots_ufunc([1，2，16.6]，[6，7，12.6]，[4，5，1.6]) 
array([-6.76393262，-1. ，-6.69669865]) 


codegen0 将 表达 式 转 换 成 源 程序 。 它 的 第 一 个 参数 是 一 个 二 元 元 组 或 是 一 个 包含 多 个 二 元 
元 组 的 列表 ， 每 个 元 组 由 函数 名 和 表达 式 构 成 。language 参数 指定 输出 的 源 代码 的 语言 ，prefix 
参数 指定 输出 的 源 代 码 的 文件 名 。 它 返回 两 个 元 组 ， 分 别 为 源 程序 文件 和 头 文件 的 文件 名 及 其 
内 容 。 如 果 符 号 表达 式 是 表示 矩阵 的 Matix 对 象 , 在 输出 代码 中 使 用 数组 保存 其 中 的 每 个 元 素 。 


from sympy.utilities.codegen import codegen 
(c_name, c_code), (h_name, c_header) = codegen( 
[("roote@", quadratic_roots[8]), 
("root1", quadratic_ roots[1]), 
("roots", matrix_roots)], 
language="C", 
prefix="quadratic_roots", 
header=False) 


print h_name 
print "-" * 40 
print c_header 
print 

print c_name 
print "-" * 49 
print c_code 
quadratic_roots.h 


#ifndef PROJECT QUADRATIC ROOTS_H 
#define PROJECT QUADRATIC ROOTS_H 


double root6(double a, double b, double c); 
double root1(double a, double b, double c); 
void roots(double a, double b, double c, double *out 1451769269); 


#endif 


quadratic_roots.c 


#include "quadratic_roots.h" 
#include <math.h> 


double roote@(double a, double b, double c) { 
double root® result; 


root@ result = (1.6L/2.6L)#(-b + sqrt(-4*+a*c + pow(b, 2)))/a; 
return root@ result; 


double root1(double a, double b, double c) { 
double root1 result; 


root1 result = -1.6L/2.6L#(b + sqrt(-4*a*c + pow(b, 2)))/a; 
return root1 result; 


void roots(double a, double b, double c, double *out 1451769269) { 
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out_1451769269[8] = (1.6L/2.6L)*(-b + sqrt(-4*a*c + pow(b, 2)))/a; 
out_1451769269[1] = -1.6L/2.6L*(b + sqrt(-4*a*c + pow(b, 2)))/a; 


此 外 ， 还 可 以 用 ccode0 和 fcode0 将 符号 表达 式 输出 为 C 和 Fortran 语言 的 表达 式 : 
print ccode(matrix_roots，assign_to="y") 


y[8] = (1.6L/2.6L)*#*(-b + sqrt(-4*a*c + pow(b, 2)))/a; 
y[1] = -1.8L/2.6L*(b + sqrt(-4*a*c + pow(b, 2)))/a; 


6.4.3 ”使 用 cse() 分 步 输出 表达 式 


通常 符号 运算 的 结果 都 是 十 分 复杂 的 表达 式 ， 其 中 包含 许多 重复 运算 部 分 。 使 用 cse0 可 以 
将 表达 式 中 重复 的 部 分 提取 为 分 步 运算 。cse0 的 结果 是 一 个 由 两 个 列表 组 成 的 元 组 ， 第 一 个 列 
表 是 临时 变量 以 及 与 之 对 应 的 表达 式 ， 第 二 个 列表 是 计算 结果 。 

下 面 对 一 元 二 次 方程 的 两 个 根 的 符号 表达 式 提取 公共 表达 式 ， 得 到 两 个 列表 replacements 
和 reduced_exprs。 在 replacements 中 引入 两 个 临时 符号 x0 和 xl， 对 reduced_exprs 中 的 临时 符号 
逐步 使 用 replacements 的 表达 式 进 行 蔡 换 ， 就 可 以 得 到 与 roots 相同 的 表达 式 。 由 于 根 式 部 分 使 
用 临时 符号 表示 只 需要 运算 一 次 ， 因 此 节省 了 运算 时 间 。 

replacements, reduced exprs = cse(quadratic_roots) 

%sympy_latex replacements 


or) 


%sympy_latex reduced exprs 
[xo(—b + x1), —xo(b + x1)] 
临时 符号 默认 以 x 开头， 如果 临时 符号 与 表达 式 中 的 符号 相 冲 突 ， 可 以 使 用 symbols 参数 
修改 : 


replacements, reduced exprs = cse(quadratic roots, symbols=numbered_symbols("tmp")) 
%sympy_latex replacements 


[CT 


虽然 使 用 cse0 能 将 复杂 的 表达 式 简化 为 一 系列 简单 的 运算 步骤 ， 但 是 目前 SymPy 的 代码 
输出 功能 尚未 使 用 cse0。 因 此 本 书 提供 了 cse2func0 来 将 表达 式 通过 cse0 转 换 之 后 再 输出 为 
Python 函数 。 下 面 用 该 函数 将 roots 中 的 两 个 表达 式 转换 为 quadratic_roots0 函 数 : 


from scpy2.sympy.cseprinter import cse2func 
code = cse2func("cse quadratic roots(a, b, c)", quadratic roots) 


exec code 
print code 
def cse quadratic roots(a, b, c): 
from math import sqrt 
_tmpe = 6.5/a 
_tmp1 = sqrt((b)**(2.0) - 4.6*a*c) 
return (_tmp@*(_ tmpl - b), -_tmp@*(_tmpl + b)) 


下 面 调用 生成 的 quadratic_roots0 函 数 来 计算 某 个 一 元 二 次 方程 的 解 : 


cse_quadratic_roots(1，-4，2) 
(3.41421356237，68.585786437627) 


由 于 在 函数 中 使 用 math.sqrt0 进 行 开 方 运算 ， 因 此 不 支持 结果 为 复数 的 情况 。 可 以 通过 
module 参数 指定 使 用 cmath 模块 进行 计算 : 

import cmath 

exec cse2func("cse_quadratic roots(a, b, c)", quadratic_roots, module=cmath) 

cse_quadratic_roots(1, -4, 10) 

((2+2.449489742783178j)，(2-2.449489742783178j)) 


此 外 ，cse2func0 还 有 auto_import、calc_number、symbols 等 参数 ， 请 感 兴趣 的 读者 分 析 该 函 
数 的 源 代码 以 理解 这 些 参数 的 作用 。 


6.5 ”机械 运动 模拟 


仿 与 本 节 内 容 对 应 的 Notebook 为 : 06-sympy/sympy-500-mechanics.ipynb。 


SymPy 还 提供 了 许多 专业 领域 的 符号 运算 功能 ， 例 如 physics.mechanics 模块 可 以 用 于 计算 
刚体 系统 的 运动 方程 。 作 为 本 章 的 最 后 一 节 , 我 们 用 该 模块 计算 如 图 6-3 所 示 系 统 的 运动 方程 ， 
并 进行 数值 模拟 。 在 图 中 ， 滑 动 方块 可 以 沿 参照 系 7 的 X 轴 自由 运动 ， 小 球 与 滑 块 使 用 无 质量 
连 杆 相连 接 ， 可 以 自由 摆动 。 小 球 的 的 初始 摆动 角度 为 9。 我们 希望 计算 小 球 释放 之 后 的 运动 
轨迹 。 
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图 6-3 滑 块 单 摆 系 统 的 参照 系 示意 图 
6.5.1 ”推导 系统 的 微分 方程 


首先 从 sympy.physics.mechanics 载 入 所 有 符号 ,并 使 用 其 中 的 ReferenceFrame 定义 参照 系 7 


用 Point 定义 参照 点 O。 最 后 调用 Oset_vel0， 设 置 点 O 在 参照 系 7 中 的 运动 速度 为 0。 
from sympy.physics.mechanics import * 
I = ReferenceFrame('I') # 定义 惯性 参照 系 
0 = Point('0') # 定义 原点 
O.set vel(I, 0) # 设置 点 0 在 参照 系 工 中 的 速度 为 8 


8g = symbols("g") 
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http:/www.pydy.org/ 
本 节 只 介绍 mechanics 模块 最 基本 的 用 法 ， 若 读者 对 使 用 SymPy 求解 多 刚体 系统 感 兴 
趣 ， 可 以 参考 PyDy 扩展 库 。 


下 面 定义 方块 在 参照 系 I 中 的 位 置 q 和 速度 u， 它 们 使 用 dynamicsymbols0 定 义 。 然 后 定义 
方块 的 质量 为 mu 质心 为 点 Pl。 接 下 来 调用 点 Pi 的 set_pos0 方 法 以 设置 它 相 对 于 点 O 的 位 移 ， 
set_vel( 方 法 设置 它 在 参照 系 I 中 的 速度 ， 它 们 的 方向 沿 着 参照 系 I 的 X 轴 。 最 后 在 Pi 处 创建 一 
个 质量 为 mi 的 质点 来 表示 方块 。 


q = dynamicsymbols("q") 
U = dynamicsymbols("u") 
ml = symbols("m1") 

P1 = Point('P1') 


| P1.set_pos(0，q * I.x) # 点 P1 的 位 置 相对 于 点 0， 沿 着 参照 系 工 的 X 轴 偏 移 q 
Pp1.set vel(I, u * I.x) # 点 P1 在 参照 系 工 中 的 速度 为 X 轴 方向 ， 大 小 为 u 
box = Particle('box', P1, m1) # 在 点 P1 处 放置 质量 为 ml 的 方块 box 


使 用 dynamicsymbols0 定 义 的 符号 是 时 间 的 函数 : 


%sympy_latex q, u 


386 


(qd), uC) 
下 面 定义 小 球 所 在 的 参照 系 B,B 为 I 绕 乙 轴 旋转 6 而 得 ,并 设置 B 相 对 于 I 的 角速度 为 m， 
角速度 围绕 1 的 乙 轴 正方 向 旋转 。 角 速度 的 正方 向 使 用 右手 法 则 定义 ， 即 右手 大 拇指 指向 围绕 
的 轴 ， 四 指 的 方向 为 正方 向 。 


th = dynamicsymbols("theta") 

w = dynamicsymbols("omega") 

B = I.orientnew('B'，'Axis'，[th, I.z]) ”# 将 工 围绕 Z 轴 旋转 theta 得 到 参照 系 B 
B.set ang vel(I, w * I.z) # 设置 B 的 角速度 


细 杆 的 长 度 为 1 小 球 的 质量 为 m。 点 P 为 小 球 的 质心 ， 它 的 位 置 相对 于 点 Pl， 沿 着 参照 
系 B 的 Y 轴 负 方 向 偏 移 1， 并 通过 v2pt_theory0 设 置 P* 在 参照 系 [中 的 速度 。 若 PP 和 PI 在 参照 系 
B 中 相对 静止 ， 当 Pi 在 参照 系 [中 的 速度 以 及 参照 系 B 与 参照 系 [之 间 的 关系 都 确定 时 ， 可 以 
通过 P2.v2pt_theory(P1,1, B) 计 算 P 在 I 中 的 速度 。 最 后 在 P 处 放置 质量 为 ms 的 小 球 。 


1, m2 = symbols("1,m2") 
P2 = P1.locatenew('P2'，-1 * B.y) # P2 相对 于 P1 沿 着 B 的 Y 轴 负 方向 偏 移 1 
P2.v2pt_theory(P1, I, B) # 使 用 二 点 理论 设置 P2 在 工 中 的 速度 
ball = Particle('bal1'，P2，m2) 。 # 在 P2 处 放置 质量 为 m2 的 小 球 

下 面 显示 P 在 I 中 的 速度 : 


P2.vel(I) # 显 示 P2 在 工 中 的 速度 


uty + lb 
到 此 为 止 ， 各 个 惯性 参照 系 、 坐 标点 、 质 点 之 间 的 关系 已 经 确定 。 下 面 创建 KanesMethod 


对 象 ， 使 用 它 可 以 推导 出 系统 的 微分 方程 组 。q_ind 参数 为 系统 中 所 有 与 位 移 相 关 的 独立 状态 
列表 ，u_ind 参数 为 所 有 与 速度 相关 的 独立 状态 列表 ， 而 kd_eqs 参数 则 是 这 些 状 态 之 间 需 要 满 
足 的 微分 方程 。 在 本 例 中 , 方块 的 位 移 q 的 导数 为 速度 u, 细 杆 的 旋转 角度 6 的 导数 为 角速度 @: 
eqs = [q.diff() - u th.diff() - w] #q 的 导数 为 u，th 的 导数 为 w 
kane = KanesMethod(I, q_ind=[q, th], u_ind=[u, w], kd_eqs=eqs) 


然后 调用 kanes_equations0 方 法 推导 微分 方程 。 其 中 , particles 为 系统 中 所 包含 质点 的 列表 ， 
forces 是 系统 所 受 外 力 的 列表 。 每 个 作用 力 由 作用 点 和 矢量 决定 ， 这 里 定义 两 个 质点 上 所 受 的 
重力 。 


particles = [box，ball] # 系 统 包 含 的 所 有 质点 
forces = [(P1，-ml*g*I.y)，(P2，-m2*g*I.y)] # 系 统 所 受 的 外 力 
fr, frstar = kane.kanes equations(forces, particles) 


kanes_equations0 返 回 系统 的 微分 方程 组 。 其 中 的 每 个 方程 为 : 位 和 frstar 中 对 应 的 表达 式 之 
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和 等 于 0。 
%sympy_latex Eq(fr[8] + frstar[6]，6) 


%sympy_latex Eq(fr[1] + frstar[1], 8) 


lIm2w?(t)sin(0(t)) 一 Imacos(e(D) EL oO 一 (mi 二 m2) Suld 王 才 


—glmzsin(8(t)) 一 Pm old — Imacos(9(0) Sa = 二 分 


使 用 KanesMethod 对 象 的 mass_matrix_full 和 forcing_full 属性 可 以 写 出 求解 系统 状态 的 微分 
方程 组 ， 其 中 包含 eqs 中 的 两 个 方程 


from IPython import display 
status = Matrix([[q],[th],[u],[w]]) 
display.Math(latex(kane.mass_matrix full) + latex(status.diff()) + 


=" + latex(kane. Er 


下 9GD 
1 0 0 0 u(t) 
0 1 0 0 0 w(t) 
0 0 m+m; ee i 
0 0 lmzcos(6(t)) 12m2 -gmzsin(6(D) 
oa 


6.5.2 ”将 符号 表达 式 转换 为 程序 


当 已 知 系统 的 状态 gq、9、u、@ 时 ， 可 以 通过 上 面 的 公式 计算 出 各 个 状态 的 导数 ， 因 此 可 
以 用 scipy.integrate.odeint0 对 该 微分 方程 组 进行 数值 求解 ， 从 而 计算 出 系统 的 运动 轨迹 。 我 们 可 
以 使 用 SymPy 的 表达 式 输出 功能 ， 同一 后 破 计 仙人 个 居 丰 的 导数 的 基数 。 下 面 首先 使 用 矩阵 求 
首 与 矩阵 乘法 计算 线性 方程 组 的 解 ， 结 果 diff_status 是 一 个 形状 为 (4, D) 的 Matrix 对 象 : 


diff_status = kane.mass_matrix_ full.inv() * kane.forcing full 


为 了 使 用 autowrap0 将 diff_status 编译 成 扩展 模块 ， 需 要 将 其 中 与 t 相 关 的 表示 状态 的 符号 
替换 为 一 般 符 号 。@status 中 的 每 个 元 素 都 是 与 t 相 关 的 函数 ， 可 以 通过 sym.func，name_ 获取 
sym 对 应 的 函数 名 ， 并 使 用 该 函数 名 创建 与 其 同名 的 一 般 符号 。@ 调 用 subs0 方 法 将 所 有 与 t 相 
关 的 符号 替换 为 一 般 符 号 ， 得 到 与 t 无 关 的 窍 阵 expr。@ 调 用 autowrap0 将 expr 转换 为 计算 其 值 
的 函数 func_diff status0: 


from sympy.utilities.autowrap import autowrap 
status_symbols = [Symbol(sym.func._name _) for sym in status] © 
expr = diff_status.subs(zip(status, status_symbols)) ©@ 


_func_diff_status = autowrap(expr，args=[m1，m2，1，8g&] + status_symbols, 
tempdir=r".\tmp_mechanics") © 


于 func diff status0 的 参数 和 返回 值 的 形状 不 符合 odeint0 的 要 求 ， 因 此 需要 使 用 下 面 的 
func_diff_status0 对 其 进行 包装 : 


def func_ diff status(status, t, ml, m2, 1, g): 
q, th, u, w = status 
return _func diff _ status(m1, m2, 1, g, q, th, u, w).ravel() 


init_status = np.array([8, np.deg2rad(45), 8, 86]) 

args = 1.0, 2.0, 1.60, 9.8 

func diff_status(init status, 8, *args) 

array([ ©@. Se Sd ，-16.39446968] ) 


下 面 调用 odeint0 对 fonc_diff_status0O 进 行 积分 ， 得 到 如 图 64 所 示 的 运动 轨迹 ， 
from scipy.integrate import odeint | 


t = np.linspace(8, 106, 560) 
res = odeint(func diff _status, init_ status, t, args=args) 
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fig, (ax1, ax2) = plt.subplots(2, 1) 
ax1.plot(t, res[:, 8], label=u"$q$") 
ax1.legend() 

ax2.plot(t, res[:, 1], label=u"$\\theta$") 

ax2. legend() 


图 64 使 用 odeint0 计 算 的 运动 轨迹 


6.5.3 ”动画 演示 
可 以 通过 matplotlib 的 动画 制作 功能 ， 直 观 地 显示 系统 的 运动 状况 ,效果 如 图 6-5 所 示 。 关 
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于 这 段 程序 的 编写 方法 ， 请 参照 matplotlib 一 章 中 的 相关 说 明 。 


8.9[ 1 


-8@.5[ 二 


-8.5 6.9 0.5 1.9 2.5 


图 6-5 动画 演示 效果 


from matplotlib import animation 
from matplotlib.patches import Rectangle, Circle 
from matplotlib. lines import Line2D 


def animate_system(t, states, blit=True): 
q, th, u, w = states.T 
fig = plt.figure() 
w, h = 80.2, 8.1 
ax = plt.axes(xlim=(-0.5, 1.5), ylim=(-1.5, 0.5), aspect="'equal') 


rect = Rectangle([q[8], 6, - WwW/ 2.6，- h / 2], 
w, h, fill=True, color="'red', ec="'black', axes=ax, animated=blit) 
ax.add_patch(rect) 


line = Line2D([], [], lw=2, marker="'0', markersize=6, animated=blit, axes=ax) 
ax.add_artist(line) 


circle = Circle((@, 8), 0.1, axes=ax, animated=blit) 
ax.add_patch(circle) 


def animate(i): 
x yl = qlil> 9 
1 = 1.6 
x2, y2 = l*sin(th[i]) + x1, -l*cos(th[i]) + yl 
rect.set xy((x1-w*0.5, y1)) 
line.set data([x1, x2], [yl1, y2]) 
circle.center = x2, y2 
return rect, line, circle 


interval=t[-1] / len(t) * 1668，blit=blit，repeat=False) 


return anim 


下 面 使 用 %matplotlib 命令 将 matplotlib 的 后 台 绘 图 库 改 为 qt, 以 便 男 外 开启 窗口 来 显示 动画 
演示 : 
%gui qt 


%matplotlib qt 


anim = animation.FuncAnimation(fig, animate, frames=len(t), | 
anim = animate_system(t, res) 
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Traits & TraitsUl- 轻 松 制作 图 形 界 面 


Python 作为 一 种 高 级 的 动态 编程 语言 ， 它 的 变量 没有 类 型 ， 这 种 灵活 性 给 快速 开发 带 来 很 
多 便利 ， 不 过 它 也 不 是 没有 缺点 。 通 过 Traits 库 可 以 为 对 象 的 属性 添加 类 型 校 验 功能 ， 从 而 提 
高 程序 的 可 读 性 ， 降 低 出 错 率 。 

Traits 库 是 由 Enthought 公司 开发 的 一 套 开源 扩展 库 。 虽 然 Traits 库 本 身 和 科学 计算 没有 关 
系 , 但 它 是 该 公司 的 其 他 各 种 科学 计算 库 的 基础 , 因此 本 书 用 一 整 章 的 篇 幅 对 其 进行 详细 介绍 。 


7.1 Traits 类 型 人 门 


9 与 本 节 内 容 对 应 的 Notebook 为 : 07-traits/traits-100-intro.ipynb。 


Traits 库 最 初 是 为 了 开发 交互 式 绘图 库 Chaco 而 设计 的 。 通 常 绘图 库 中 有 许多 表示 图 形 的 
对 象 ， 每 个 对 象 都 有 很 多 诸如 线 型 、 颜 色 和 字体 之 类 的 属性 。 为 了 方便 用 户 使 用 ， 每 个 属性 可 
以 允许 多 种 形式 的 值 。 例 如 颜色 属性 可 以 是 red'、0xff0000 或 255,0, 0)。 也 就 是 说 ， 可 以 用 字符 
串 、 整 数 或 元 组 等 类 型 的 数据 表示 颜色 。 这 样 的 需求 初 看 起 来 用 Python 的 无 类 型 属性 是 一 个 很 
好 的 选择 ， 因 为 我 们 可 以 把 各 种 各 样 的 值 赋值 给 颜色 属性 。 但 是 颜色 属性 虽然 可 以 接受 多 样 的 
值 ， 却 不 是 能 接受 所 有 的 值 ， 比 如 abc 和 0.5 等 就 不 能 很 好 地 表示 颜色 。 而 且 虽 然 为 了 方便 用 户 
使 用 ， 对 外 的 接口 可 以 接受 多 种 类 型 的 值 ， 但 是 在 程序 内 部 必须 有 一 个 统一 的 表达 方式 来 简化 
旦 序 内 部 的 实现 。 用 Trait 属性 可 以 很 好 地 解决 这 样 的 问题 ; 

e 它 可 以 接受 能 表示 颜色 的 各 种 类 型 的 值 。 

。 当 给 它 赋 值 为 不 能 表达 颜色 的 值 时 ， 它 能 够 立即 捕捉 到 错误 ， 并 且 提 供 一 个 有 用 的 错 
误 报告 ， 告 诉 用 户 它 能 够 接受 什么 样 的 值 。 

。 它 提 供 内 部 的 、 标 准 的 用 于 表达 颜色 的 数据 类 型 。 


7.1.1 什么 是 Traits 属性 
下 面 我 们 通过 一 个 简单 的 实例 演示 Trait 属 性 的 功能 : 


from traits.api import HasTraits，Color © 


class Circle(HasTraits): @ 
color = Color © 
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@ 首 先 载 入 HasTraits 和 Color， 
相同 的 载 入 方式 。@ 所 有 拥有 Trait 
Circle 类 中 用 它 定 义 了 color 属性 。 

熟悉 Python 的 读者 可 能 会 觉得 这 个 程序 有 些 奇怪 : 按照 标准 的 Python 语法 ， 直 接 在 class 
下 定义 的 属性 color 应 该 是 Circle 类 


是 不 是 应 该 在 初始 化 方法 


init _O9 


推荐 读者 在 使 用 Enthought 公司 开发 的 扩展 库 时 采用 和 本 例 
属性 的 类 都 需要 从 HasTraits 继承 。@Color 是 Trait 类型， 在 


的 属性 ， 而 程序 的 目的 是 为 Circle 类 的 实例 添加 color 属性 ， 
0 中 运行 selfcolor=Color 呢 ? 答案 是 否定 的 , 记 住 Trait 属性 像 


类 的 属性 一 样 定义 ， 像 实例 的 属性 一 样 使 用 。 我 们 不 管 HasTraits 是 如 何 实现 这 一 点 的 ， 先 看 看 


如 何 使 用 Trait 属性 : 


c = Circle() 


Circle.color ”ircle 类 没有 color 属性 


AttributeError 


Traceback (most recent call last) 


<ipython-input-4-8335a9968186> in <module>() 


1c = Circle() 
----> 2 Circle.color 


#Circle 类 没有 color 属性 


AttributeError: type object “Circle' has no attribute 'color’ 


print c.color 


print c.color.getRgb() 
<PyQt4.QtGui.QColor object at 68x8542F276> 


(255，255，255，255) 


从 上 面 的 运行 结果 可 以 看 出 Circle 类 没有 color 属性 ， 而 它 的 实例 c 则 拥有 color 属性 ， 其 
默认 值 为 白色 ，PyQt4.QtGui.QColor 上 


Cc.color = "red" 


print c.color.getRgb() 


Cc.color = 9x66ff66 


print c.color.getRgb() 
c.color = (86，255，255) 
print c.color.getRgb() 


是 PyQt4 界面 库 所 使 用 的 颜色 类 型 。 


from traits.api import TraitError 


Try 
Cc.color = 8.5 


except TraitError as ex: 
print ex[6][:356]，” 


(255, 80, 8, 255) 
(@, 255, 0, 255) 


(86，255，255，255) 

The ‘color' trait of a Circle instance must be a string of the form (r,g,b) or (r,g,b,a) 
where r, g, b, and a are integers from 6 to 255, a QColor instance, a Qt.GlobalColor, an integer 
which in hex is of the form OxRRGGBB, a string of the form #RGB, #RRGGBB, #RRRGGGBBB or 
#RRRRGGGGBBBB or 'aliceblue' or ‘'antiquewhite’' or 'aqua' or 'aquamarine' or 


由 上 面 的 运行 结果 可 知 ， 我 们 可 以 将 red'、0x00ff00 和 (0, 255, 255) 等 值 赋 给 color 属性 ， 它 
们 都 被 正确 地 转换 为 QColor 类 型 的 值 。 而 当 赋 值 为 0.5 时 抛 出 TraitError 异常 ,并且 显 示 了 一 条 
很 详细 的 出 错 信息 来 说 明 color 属性 能 支持 的 所 有 值 。 最 后 看 一 个 很 酷 的 功能 : 


c.configure traits() 


当 使 用 wxPython 作为 后 台 界 面 库 时 ， 由 于 TiaitsUI4.4.0 中 的 一 个 错误 , 程序 退出 时 会 
导致 进程 崩 演 。 请 读者 将 本 书 提供 的 scpy2\patches\toolkitpy 复制 到 
site-packages\traitsui\wx 目录 下 ， 履 盖 原 有 的 toolkitpy 文 件 。 


执行 configure_traits0 之 后 ， 会 出 现 如 图 7-1 所 示 的 对 话 框 界 面 以 供 我 们 修改 color 属性 ， 任 
意 选 择 一 种 颜色 并 单 击 OK 按钮 ，configure_traits0 返 回 True， 而 color 属性 已 经 变 为 我 们 通过 界 
面 所 选择 的 颜色 了 : 


如 果 在 Notebook 中 运行 cconfigure_traits0， 它 会 立即 返回 False， 而 不 会 等 待 对 话 框 关 
闭 。 当 程序 单独 运行 时 ，configure_traits0 会 等 待 界面 关闭 ， 并 根据 用 户 单 击 的 按钮 返 
回 True 或 False。 


图 


c.color.getRgb() 
(83, 120, 255, 255) 
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Bdd to Custom Colors 


图 7-1 自动 生成 的 修改 颜色 属性 的 对 话 框 
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对 


于 从 HasTraits 继承 的 对 象 ， 都 世 


属性 的 


核 钮 打开 颜 


以 调用 configure_traits0 方 


户 界 面 。 在 本 例 中 ， 通 过 界面 中 的 颜色 输入 框 可 以 直接 输入 表示 颜色 的 值 ， 或 者 使 
色 选 择 对 话 框 。 关 于 界面 方面 的 功能 将 在 本 章 的 后 半 部 分 详细 介绍 。 


7.1.2 Trait 属 性 的 功能 


法 以 快速 产生 一 个 设置 Trait 


Traits 库 为 对 象 的 属性 增加 了 类 型 定义 的 功能 ， 此 外 还 提供 了 如 下 额外 功能 : 
e 初始 化 : 每 个 Trait 属性 都 有 自己 的 默认 值 。 
e 验证 : Trait 属性 都 有 明确 的 类 型 定义 ， 只 有 满足 定义 的 值 才能 赋值 给 属性 。 
e 代理 :Trait 属性 值 可 以 代理 给 其 他 对 象 的 属性 。 

监听 :Tait 属性 值 发 生变 化 时 ， 可 以 运行 事先 指定 的 函数 。 


e 可视化: 拥有 Trait 属 攻 


下 面 的 例子 展示 了 Trait 属性 的 上 述 功能 : 


E 的 对 象 可 以 很 方便 地 生成 编辑 Trait 属性 的 界面 。 


from traits.api import Delegate, HasTraits, Instance, Int, Str 


clas: 


clas 


p= 
C= 


程 / 


s Parent ( HasTraits ): 


# 初始 化 : last_name 被 初始 化 为 'Zhang" 


last name = Str( “Zhang' ) © 


s Child ( HasTraits ): 
age = Int 


# 验证 : father 属性 的 值 必须 是 Parent 类 的 实例 


father = Instance( Parent ) @ 


# 代理 : 将 Child 类 的 实例 的 last_name 属性 代理 给 其 father 属性 的 last_name 
last_name = Delegate( “father”) ©@ 


# 监听 : 当 age 属性 的 值 被 修改 时 ， 


下 面 的 函数 将 被 运行 


def _age_changed ( self, old, new ): © 
print “Age changed from %s to %s ' % ( old, new ) 


Parent() 
Child() 


这 


上 用 Str 


型 定义 Parent 对 象 的 last_name 


p.last_name 


"Zhang 


定义 了 Parent 和 Child 这 两 个 从 HasTraits 继承 的 类 ， 并 分 别 创建 它们 的 对 象 p 和 c。 


属性 是 一 个 字符 串 ， 并 且 


[ 它 的 默认 值 为 Zhang': 


@ 用 Instance 类 型 定义 Child 对 象 


类 在 Child 类 之 后 定义 ， 可 以 用 字符 串 表示 类 


的 father 属 性 是 Parent 类 的 实例 , 默认 值 为 None。 如 果 Parent 


father = Instance( Parent )。 


人 通过 Delegate 类 型 为 Child 对 象 创建 了 一 个 代理 属性 last_ name。 它 使 clast_name 和 


cfatherlast_name 始终 拥有 相同 的 值 。 
获得 对 象 的 last_name 属性 : 


c.last_name 


但 是 由 于 


还 没有 设置 对 象 c 的 father 属性 ， 因 此 无 法 正确 


AttributeError 


Traceback (most recent call last) 


<ipython-input-16-fff36c984flb> in <module>() 


----> 1 c.last_name 


AttributeError: 'NoneType' object has no attribute 'last_name’ 


设置 了 对 象 c 的 father 属性 之 后 ， 就 可 以 正确 获取 它 的 last_name 属性 了 ， 并 且 对 象 c 和 Pp 


的 last_name 属性 将 始终 保持 一 致 ; 


c.father = p 

print c.last_name 
p.last_name = "ZHANG" 
print c.last_name 
Zhang 

ZHANG 


@ 当 对 象 c 的 age 属 性 值 发 生变 化 时 将 调用 监听 函数 _age_changed0: 


c.age = 4 
Age changed from 8 to 4 


c.configure traits() 


下 面 调 用 configure_traits0 以 显示 一 个 修改 属性 值 的 对 话 框 ， 如 图 7-2( 左 ) 所 示 : 


从 自动 生成 的 界面 可 以 看 到 ,属性 按照 英文 名 排序 ,垂直 排 为 一 列 。 由 于 father 属性 是 Parent 


类 的 对 象 ， 因 此 界面 中 以 一 个 按钮 表示 它 ， 单 


用 于 编辑 father 属性 所 对 应 的 对 象 。 


Father: 


Last name: ZHANG 


jl 


fi 此 按钮 将 会 弹出 一 个 如 图 7-2( 右 ) 所 示 的 对 话 框 


图 72 为 Child 对 象 自动 生成 的 属性 修改 对 话 框 ( 左 )， 单 击 Father 按钮 弹出 编辑 Parent 对 象 的 对 话 框 ( 右 ) 
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如 果 在 编辑 Father 对 象 的 对 话 框 中 修改 last_name 属性 ，Child 对 象 的 last_name 属性 也 同时 
被 修改 ， 这 是 因为 Child 对 象 的 last_name 属性 是 一 个 代理 属性 ， 其 值 和 fatherlast_name 始终 保 
持 一 致 。 
还 可 以 调用 print_traits0 以 输出 所 有 的 Trait 属性 名 和 属性 值 : 


c.print traits() 

age: 4 

father: <_main__.Parent object at 6x85D9CC96> 
last_name: 'ZHANG' 


或 调用 get0 以 得 到 一 个 描述 对 象 所 有 Trait 属性 的 字典 : 


c.get() 
{'age': 4, 'father': <_main__.Parent at 6x5d9cc98>， 'last name’': 'ZHANG'} 


此 外 还 可 以 调用 set0 以 设置 Trait 属性 的 值 ， 用 set0 可 以 同时 配置 多 个 Trait 属性 : 


c.set(age = 6) 
Age changed from 4 to 6 
<_main__.Child at 8x5d9c666> 


在 创建 HasTraits 的 派生 类 的 对 象 时 可 以 使 用 关键 字 参 数 设置 各 个 Trait 属性 的 值 ， 例 如 ; 
c2 = Child(father=p，age=3) 
Age changed from 8 to 3 
当 在 派生 类 中 定义 了 _init_0 时 ， 在 其 中 必须 调用 其 父 类 的 _init_0 方 法 ， 否 则 Trait 属性 
的 一 些 功能 将 无 效 。 也 许 读者 会 对 Trait 属性 的 工作 原理 感 兴趣 ， 下 面 简单 地 介绍 这 些 功能 是 如 
何 实现 的 。 
首先 , Trait 属性 本 身 和 普通 Python 对 象 的 属性 是 一 样 的 。 但 是 每 个 Trait 属性 都 有 一 个 CTrait 
对 象 与 之 对 应 ， 这 个 CTrait 对象 为 Trait 属性 提供 了 许多 额外 的 功能 。 可 以 通过 trait( 属 性 名 ) 获 
得 与 某 个 属性 相对 应 的 CTrait 对 象 ， 或 者 用 traits0 获 得 包含 所 有 CTrait 对 象 的 字典 。 下 面 的 语 
句 获得 age 属性 对 应 的 CTrait 对 象 ; 


c.trait("age") 
<traits.traits.CTrait at Ox9e23870> 


Trait 属性 的 默认 值 保 存在 与 其 对 应 的 CTrait 对 象 中 : 


p.trait("last_name").default 


“Zhang 


给 Trait 属性 赋值 时 的 验证 工作 由 CTrait 对 象 的 validate0 完 成 。 当 验证 失败 时 抛 出 异常 ， 验 
证 成 功 时 则 返回 所 要 赋 的 值 。 因 此 validate0 还 可 以 用 于 修改 所 赋 的 值 。 下 面 直接 调用 father 属 
性 所 对 应 的 CTrait 对 象 的 validate0: 


Py 

c.trait("father").validate(c, "father", 2) 
except TraitError as ex: 

print ex 


The 'father' trait of a Child instance must be a Parent or None, but a value of 2 <type 'int'> 
was specified. 


c.trait("father").validate(c, "father", p) 
<_ main__.Parent at 86x5d9cc96> 


当 Trait 属性 的 值 被 改变 时 ，HasTraits 对 象 的 trait_property_changed0 会 被 调用 ， 
trait_property_changed0 在 HasTraits 的 父 类 CHasTraits 中 定义 ,在 此 方法 中 将 会 调用 用 户 定义 的 属 
性 监听 函数 。 注 意 只 调用 监听 函数 , 并 不 会 修改 属性 的 值 , 因此 下 面 的 语句 将 调用 _age_changed0， 
但 不 会 修改 age 属性 的 值 ; 


c.trait_property_changed("age"，8，16) 
c.age # age 属性 的 值 没 有 发 生变 化 

Age changed from 8 to 196 

6 


CTrait 对 象 是 连接 Trait 属性 和 Trait 类 型 的 纽带 , 通过 CTrait 对 象 的 trait_type 属性 可 以 获得 
定义 Trait 属性 时 所 使 用 的 Trait 类 型 : 


print c.trait("age").trait type 

print c.trait("father").trait type 

<traits.trait types.Int object at 6x69DC6496> 
<traits.trait_ types.Instance object at 6x69DC6836> 


7.1.3 Trait 类 型 对 象 


在 程序 中 使 用 Trait 属性 需要 按照 下 面 三 个 步骤 进行 

(1) 从 traits.api 中 载 入 所 需 的 类 型 。 

CO) 创建 Trait 类 型 对 象 。 

G) 创建 一 个 从 HasTraits 类 继承 的 新 类 , 在 其 中 使 用 所 创建 的 Trait 类 型 对 象 定义 Trait 属性 。 

通常 步骤 2) 和 (G) 是 放 在 一 起 的 ， 也 就 是 说 创建 Trait 类 型 对 象 的 同时 定义 Trait 属性 ， 本 书 
的 大 部 分 例子 都 是 采用 这 种 方式 。 例 如 : 


from traits.api import Float, Int, HasTraits 


class Person(HasTraits): 
age = Int(36) 
weight = Float 
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上 面 的 程序 为 Person 类 定义 了 两 个 Trait 属性 : age 和 weight。 其 中 age 属性 使 用 Int 类 型 对 
象 定义 ，30 为 默认 值 。 而 weight 属性 则 直接 使 用 Float 类 型 定义 ， 实 际 上 它 也 会 创建 一 个 Float 
类 型 对 象 ， 其 具体 的 实现 在 HasTraits 类 的 内 部 进行 。 在 上 一 节 我 们 介绍 过 ， 每 个 Trait 属性 都 
对 应 一 个 CTrait 对 象 ， 而 通过 CTrait 对 象 的 trait_type 属性 可 以 获得 Trait 类 型 对 象 。 实 际 上 ， 这 
些 CTrait 对 象 和 Trait 类 型 对 象 都 是 在 类 中 保存 的 , 因此 对 于 同一 个 HasTraits 派生 类 的 多 个 实例 ， 
它们 的 某 个 Trait 属性 所 对 应 的 CTrait 对象 都 是 同一 个 对 象 。 下 面 创建 两 个 Person 类 的 实例 ， 并 
分 别 查 看 它们 的 Trait 属性 所 对 应 的 CTrait 对 象 和 Trait 类 型 对 象 ， 可 以 看 出 多 个 实例 之 间 共 享 
CTrait 对 象 的 Trait 类 型 对 象 : 


pl = Person() 

p2 = Person() 

print pl.trait("age") is p2.trait("age") 

print p1.trait("weight").trait type is p2.trait("weight").trait type 
True 

True 


也 可 以 先 单独 创建 一 个 Trait 类 型 对 象 ， 然 后 用 它 定义 多 个 Trait 属性 : 
from traits.api import HasTraits, Range 
coefficient = Range(-1.0, 1.0, 8.0) 


class Quadratic(HasTraits): 
C2 = coefficient 
C1 = coefficient 
Cc8 = coefficient 


class Quadratic2(HasTraits): 
c2 = Range(-1.6，1.6，6.6) 
c1 = Range(-1.6，1.6，6.6) 
c8 = Range(-1.6，1.6，6.6) 


上 述 程序 中 , Quadratic 类 有 多 个 类 型 为 Range 的 Trait 属性 , 并 且 取 值 范围 都 是 -1.0 到 1.0， 
初始 值 为 0.0。 为 了 尽量 重用 代码 , 我 们 先 创建 了 一 个 Range 类 型 对 象 , 然后 使 用 它 定义 了 三 个 
Trait 属 性。 为 了 比较 ， 在 Quadratic2 类 中 定义 Trait 属性 时 创建 Range 类 型 对 象 。 

Quadratic 对 象 的 三 个 属性 所 对 应 的 类 型 对 象 都 是 coefficient: 

q = Quadratic() 
print coefficient is q.trait("ce").trait type 
print coefficient is q.trait("c1").trait type 


True 
True 


而 Quadratic2 对 象 的 属性 所 对 应 的 类 型 对 象 则 是 不 同 的 对 象 : 


q2 = Quadratic2() 
q2.trait("ce").trait type is q2.trait("c1").trait type 
False 


7.1.4 Trait 的 元 数据 


Trait 类 型 可 以 拥有 元 数据 属性 , 这 些 属性 保存 在 与 Trait 属性 对 应 的 CTrait 对象 中 。 下 面 以 
-个 实例 解释 什么 是 元 数据 属性 。 


from traits.api import HasTraits, Int, Str, Array, List 


class MetadataTest(HasTraits): 
i = Int(99, myinfo="test my info") © 
s = Str("test"，label=u" 字 符 申 ") @ 
# NumPy 的 数组 
a = Array © 
# 元 素 为 Int 的 列表 
list = List(Int) @ 


test = MetadataTest() 
F 面 查看 所 有 的 Trait 属性 : 


test.traits() 
{'a': <traits.traits.CTrait at 9x9e4fbe6>， 
"i': <traits.traits.CTrait at 9x9e4f9d6>， 
"list': <traits.traits.CTrait at 9x9e4fb36>， 
's': <traits.traits.CTrait at 9x9e4fa86>， 
'trait added': <traits.traits.CTrait at 9x4fc2c38>， 
'trait modified': <traits.traits.CTrait at @x4fc2be@>} 


通过 traits0 方 法 可 以 得 到 一 个 包含 所 有 CTrait 对 象 的 字典 。CTrait 对 象 用 于 描述 Trait 属性 ， 
例如 : testtrait(i 描 述 testi，testtrait(s) 描 述 tests。test 对 象 有 两 个 额外 的 CTrait 对象: trait_added 
和 trait_modified， 它 们 在 HasTraits 类 中 定义 。 
每 个 Trait 属性 都 有 一 个 与 之 对 应 的 CTrait 对 象 用 于 描述 它 。 而 所 谓 元 数据 属性 就 是 描述 
Trait 属性 的 属性 ， 它 介 i CTrait 对 象 中 。 元 数据 属性 可 以 分 为 三 类 : 

e 内 部 属性 :这些 属性 是 CTrait 对 象 自 带 的 ， 只 读 不 能 写 。 

e 识别 属性 : 这 些 属性 可 以 自由 设置 ， 它 们 可 以 改变 Trait 属性 的 一 些 行为 。 

e 用 户 属性 : 用 户 自 己 添加 的 属性 ， 需 要 自己 编写 程序 来 使 用 它们 。 

下 面 是 一 些 内 部 元 数据 属性 ， 可 以 读 取 它 们 的 值 ， 但 不 能 修改 : 
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e array: 是 否 是 数组 ， 不 是 数组 的 Trait 属性 没有 此 属性 。 
e ”default: Trait 属性 的 默认 值 。 
e default_kind: 一 个 描述 默认 值 的 类 型 的 字符 串 ， 值 可 以 是 "value"、"list*、"dict"、"self"'、 


"factory"、 "method" 等 。 


® trait type: 


定义 Trait 属性 时 所 使 用 的 Trait 类 型 对 象 。 


@ inner traits: 内 部 的 CTrait 对 象 , 在 List、 Dict 中 使 用 , 用 来 描述 List 和 Dict 的 内 部 元 素 。 


® type: Trait 


属性 的 分 类 ， 可 以 是 "constant"、"delegate"、"event"、"property"、"trait"。 


下 面 的 元 数据 属性 不 是 预定 义 的 ， 但 是 可 以 被 HasTraits 对 象 使 用 : 
e desc: 描述 Trait 属性 用 的 字符 串 ， 在 生成 界面 时 中 使 用 它 作为 所 创建 的 编辑 器 的 帮助 


信息 。 


e editor: 指定 在 界面 中 编辑 Trait 属性 时 所 使 用 的 编辑 器 类 型 。 


@ label: 界 再 


i 中 的 Trait 属性 编辑 器 的 标签 字符 串 。 


e rich_compare: 指定 判断 Trait 属性 值 发 生变 化 的 方式 。 默 认 值 为 True， 表 示 按 值 比较 ， 


False 表示 
® trait_value: 


将 Trait 属 | 


护照 对 象 地 址 比较 。 
指定 Teait 属性 是 否 接受 TraitValue 类 的 对 象 , 默认 值 为 False。 当 为 True 时 ， 
性 设置 为 TraitValue0， 重 置 Trait 属性 为 默认 值 。 


e transient: 指定 当 对 象 被 保存 (持久 化 ) 时 是 否 保存 此 Trait 属性 值 ， 当 此 属性 不 存在 时 使 
用 默认 值 Tme。 


下 面 查 看 前 面 示例 中 test 对 象 的 各 个 Trait 属 性 的 元 数据 属性 : 
@ 在 创建 Int 类 型 对 象 时 ,设置 其 默认 值 为 99, 并 设置 一 个 名 为 myinfo 的 用 户 元 数据 属性 。 
这 些 信息 都 保存 在 与 属性 i 对 应 的 CTrait 对象 中 : 


print test.trait("i").default 


print test.trait("i").myinfo 
print test.trait("i").trait type 


ed 
test my info 


<traits.trait types.Int object at 6x65DA4F56> 


@ 属 性 s 的 默认 值 为 "test"， 并 且 它 有 一 个 识别 元 数据 属性 label。 在 生成 界面 时 ， 使 用 它 作 
为 编辑 器 的 标签 ,为 了 在 界面 中 使 用 中 文 , 需要 使 用 Unicode 字 符 串 ,如 果 运 行 test.configure_traits() 


来 显示 图 形 界面 ， 


可 以 看 到 该 属性 对 应 的 标签 文本 为 “字符 串 ”。 


print test.trait("s").label 


字符 串 


@array 用 于 定义 NumPy 数组 类 型 的 Trait 属性 ， 因 此 属性 a 的 元 数据 属性 array 为 True: 


test.trait("a").array 


True 
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@ 属 性 list 是 一 个 元 素 类 型 为 整数 的 列表 。 通 过 inner traits 元 数据 属性 可 以 获得 与 列表 元 素 
对 应 的 CTrait 属性 : 


print test.trait("list") 

print test.trait("list").trait type 

print test.trait("list").inner_traits # list 属性 的 内 部 元 素 所 对 应 的 CTrait 对 象 

print test.trait("list").inner traits[6].trait_ type # 内 部 元 素 所 对 应 的 Trait 类 型 对 象 
<traits.traits.CTrait object at 6x69E4FB36> 

<traits.trait types.List object at 6x65DA46D6> 

(<traits.traits.CTrait object at 6x69E4FC38>，) 

<traits.trait types.Int object at 6x65DA4E56> 


7.2 Trait 类 型 


有 与 本 节 内 容 对 应 的 Notebook 为 : 07-traits/traits-200-typesiipynb。 


本 节 介 绍 Traits 库 中 提供 的 各 种 Traits 类 型 以 及 如 何 监听 Traits 属性 值 的 变化 。 
7.2.1 预定 义 的 Trait 类 型 
Traits 库 为 Python 的 许多 数据 类 型 提供 了 预定 义 的 Trait 类 型 。 对 于 Python 的 每 个 简单 数据 
类 型 都 有 两 种 Trait 类 型 与 之 对 应 ， 见 表 7-1: 
e 强制 Tmait 类 型 ， 当 强制 类 型 的 Trait 属性 被 赋值 为 类 型 不 匹配 的 数据 时 ， 会 抛 出 异常 。 
e 自动 Ttait 类 型 ， 类 型 不 匹配 时 会 自动 调用 此 类 型 对 应 的 转换 函数 进行 类 型 转换 。 


表 7-1 预定 义 的 Trait 类 型 


强制 类 型 自动 类 型 内 置 默认 值 自动 转换 函数 
Bool CBool False bool0 
Complex CComplex 0HOi COmPIex 
Float CFloat 00 foat0 
Int CIt 0 in 
Long CLong OL int) 
Str CStr str0) 
Unicode CUnicode u unicode( 


下 面 的 例子 比较 这 两 种 类 型 ; 
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from traits.api import HasTraits, CFloat, Float, TraitError 


class Person(HasTraits): 
cweight = CFloat(56.6) 
weight = Float(56.6) 


程序 中 用 自动 Trait 类 型 CFloat 定义 了 一 个 cweight 属性 ， 它 可 以 接收 能 转换 为 数值 的 字符 
串 "90"， 而 weight 属性 则 使 用 强制 Trait 类 型 Hloat 定义 ， 将 它 赋值 为 "90" 则 会 抛 出 异常 : 


p = Person() 
p.cweight = "90" 
print p.cweight 
try: 
p.weight = "90" 
except TraitError as ex: 
print ex 
96.6 
The “weight' trait of a Person instance must be a float, but a value of '90' <type 'str'> 
was specified. 


除了 简单 类 型 以 外 ，Traits 库 还 定义 了 许多 其 他 的 常用 数据 类 型 。 表 72 列 出 了 一 些 常用 的 
预定 义 Trait 类 型 ， 


表 7-2 一 些 常用 的 预定 义 Trait 类 型 


类 型 名 参数 说 明 

An Any( [value=None, **metadata] ) 任何 对 象 

Array Array( [dtype=None, shape=None, value=None, NumPy 数组 

CAma ode=None, **metadata] 

Button Button( [label="", image=None, style="button", 按钮 类 型 , 通常 用 于 触发 事件 ， 参数 用 


orientation= vertical', width_padding=7, height_padding= 于 描述 界面 中 的 按钮 的 样式 
5, **metadata] ) 
Callable Callable( [value=None, **metadata] ) 


Code Code( [value="", minlen=0, maxlen=sys.maxint, 


可 调用 对 象 
某 种 编程 语言 的 字符 串 


regex="", **metadata] ) 


Color Color( [*args, **metadata 界面 库 中 所 采用 的 颜色 对 象 
CSet CSet( [trait=None, value=None, items=True, 自动 转换 类 型 的 集合 对 象 
**metadata] ) 
Constant Constant( value*[, ***metadata] ) 常量 对 象 ， 其 值 不 能 改变 ,必须 指定 初 


始 值 
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( 续 表 ) 


类 型 名 参数 说 明 
Dict Dict([key_trait=None, value_trait=None, value=None, 字典 对 象 ， 为 了 方 使 使 用 ， 在 Traits 库 
items=True, **metadata]) 中 还 预定 义 了 一 些 键 的 类 型 为 字符 串 
的 字典 类 型 ， 例 如 DictStrAny， 
DictStrBool 等 
Directory Directory( [value="", auto_set=False, entries=10, 表示 某 个 日 录 的 路 径 的 字符 串 
exists=False, **metadata] ) 
Either Either( vall*[, *val2, ..., valN, **metadata] ) 多 个 Trait 类 型 的 复合 ， 例 如 Either(St, 
Float) 表 示 定 义 的 属性 可 以 是 字符 串 或 
浮 点 数 
Enum Enum( values*[, ***metadata] ) 枚 举 数据 , 其 值 可 以 是 候选 值 中 的 任意 
个 
Event Event( [trait=None, **metadata 触发 事件 用 的 对 象 
Expression Expression( [value="0", **metadata] ) thon 的 表达 式 对 象 
File File( [value=", filter=None, auto_set=False, 表示 文件 路 径 的 字符 串 
entries=10, exists=False, **metadata ] ) 
Font Font( [*args, **metadata 界面 库 中 表示 字体 的 对 象 
读者 可 以 查看 各 个 Trait 类 型 的 文档 以 了 解 其 具体 用 法 。 下 面 以 枚 举 类 型 为 例 ， 介 绍 Trait 


类 型 的 使 用 方法 。 使 用 Enum 可 以 定义 枚 举 类 型 ， 在 Enum 的 定义 中 给 出 所 有 的 候选 值 ， 这 些 
值 必须 是 Python 的 简单 数据 类 型 ， 例 如 字符 串 、 整 数 、 浮 点 数 等 ， 候 选 值 的 类 型 可 以 不 一 样 。 
可 以 直接 将 候选 值 作 为 参数 ， 或 者 将 其 放 在 列表 中 ， 第 一 个 值 为 缺 省 值 : 


from traits.api import Enum，List 


class Items(HasTraits): 


count 


= Enum(None, 6, 1, 2, 3, "many") 


# 或 者 : 
# count = Enum([None, 8, 1, 2, 3, "many"]) 


F 而 是 运行 结果 : 


item = Items() 
item.count = 2 


item.count = "many" 


try: 


item.count = 5 


except TraitError as ex: 


print 


ex 


The ‘count' trait of an Items instance must be None or 8 or 1 or 2 or 3 or 'many', but a 
value of 5 <type 'int'> was specified. 
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如 果 希 望 候选 值 是 动态 的 ， 可 以 用 values 参数 指定 候选 值 所 对 应 的 属性 名 : 


class Items(HasTraits) : 
count_ list = List([None，6，1，2，3，"many"]) 
count = Enum(values="count_list") 


在 上 面 的 Tems 类 中 ， 先 用 List 定 义 了 一 个 列表 类 型 的 count_list 属 性 ， 并 为 其 指定 了 默认 


值 。 然 后 在 用 Enum 定义 枚 举 类 型 的 属性 时 ， 用 values 参数 指定 枚 举 属性 的 候选 值 为 count_list 
属性 中 的 元 素 。 


item = Items() 


try: 

item.count = 5 。 # 由 于 候选 值 列 表 中 没有 5， 因 此 赋值 失败 
except TraitError as ex: 

print ex 


item.count_list.append(5) 

item.count = 5 # 由 于 候选 值 列表 中 有 5， 因此 赋值 成 功 

item. count 

The 'count' trait of an Items instance must be None or 8 or 1 or 2 or 3 or 'many', but a 
value of 5 <type 'int'> was specified. 

5 


在 上 面 的 例子 中 , 因为 5 不 在 count_list 属 性 中 , 第 一 次 将 count 属 性 赋值 为 5 时 抛 出 异常 。 
当 将 5 添加 进 count_list 属性 中 之 后 ， 就 可 以 将 count 属性 设置 为 5 了 。 
7.2.2 ”Property 属性 
在 标准 的 Python 语法 中 可 以 使 用 property0 为 类 创建 Property 属性 。Property 属性 的 用 法 和 
- 般 属 性 相同 ， 但 是 在 获取 它 的 值 或 者 给 它 赋 值 时 会 调用 相应 的 方法 。 在 Traits 库 中 也 提供 了 
类 似 的 功能 ， 但 是 用 法 比 标准 Python 更 简洁 。 我 们 先 看 一 个 例子 : 
from traits.api import HasTraits，Float，Property，cached_property 
class Rectangle(HasTraits): 


width = Float(1.6) 
height = Float(2.6) 


#area 是 一 个 属性 ， 当 width、height 的 值 变化 时 ， 它 对 应 的 _get_area 函数 将 被 调用 
area = Property(depends_on=['width', "height']) © 


# 通过 cached_property 修饰 器 缓存 _get_area() 的 输出 
@cached_property © 
def get area(self): © 


"area 的 get 函数 ， 注 意 此 函数 名 和 对 应 的 Proerty 名 的 关系 " 
print “recalculating 
return self.width * self.height 


@ 在 Rectangle 类 中 ,使 用 Property0 定 义 了 一 个 area 属性。 与 Python 的 标准 property 属性 不 
同 ， 它 根据 属性 名 直接 决定 属性 所 对 应 的 方法 。 当 读 取 area 属性 值 时， 得 到 的 是 @_get_area0 
的 返回 值 ， 而 当 设 置 area 属性 值 时 ， 所 设置 的 值 将 传递 给 _set_area0。 由 于 在 本 例 中 没有 定义 
_set_area0， 因 此 area 属性 是 只 读 的 。 此 外 ， 通 过 depends_on 参数 可 以 指定 Property 属性 的 依赖 


关系 。 本 例 中 ， 当 Rectangle 对 象 的 width 和 height 属性 值 发 生变 化 时 需要 重新 计算 area 属性 。 


@_get_area0 用 @cached_property 修饰 ， 这 样 _get_area0 的 返回 值 将 被 缓存 ， 除 非 area 属性 所 


依赖 的 width 和 height 属性 值 发 生变 化 ， 否 则 将 一 直 使 用 缓存 值 ， 而 不 会 每 次 调用 _get_area0。 


下 面 看 看 实际 的 运行 效果 : 


r = Rectangle() 

print r.area # 第 一 次 取得 area， 需 要 进行 运算 

r.width = 16 

print r.area # 修改 width 之 后 ， 取 得 area， 需 要 进行 计算 

print r.area # width 和 height 都 没有 发 生变 化 ， 因 此 直接 返回 缓存 值 ， 没 有 重新 计算 
recalculating 

2.6 

recalculating 

26.6 

26.9 


通过 depends_on 和 @cached_property， 系 统 可 以 跟踪 area 属性 的 状态 ， 判 断 是 否 需要 调 


日 


de area 属性 的 值 。 注 意 在 运行 r.width=10 之 后 ， 并 没有 立即 调用 _get_area0， 


只 是 保存 一 个 需要 重新 计算 的 标志 ， 等 到 真正 需要 area 的 值 时 ，_get_area0 才 会 被 调用 。 


下 面 用 %qtconsole 启动 一 个 QtConsole, 并 在 其 中 连续 调用 两 次 edit_traits0, 弹出 图 7-3 所 示 


的 两 个 编辑 界面 : 


国 Ipyhon 
File Edit View Kernel Msgic Window Hetp 


IPython QtConsole 3.0.0 a 
Python 2.7.9 (default, Dec 18 2014, 12:24:55) [sc v.11 
Type “copyright", "credits" or "license” for more infol 


IPython 3.6.9 -- An enhanced Interactive Python- 
-> Introduction and overview of IPython's fe 
Savickrer > Quick reference. 
> Python's own help system. 
objecty -> Details about “objett' Use ‘object?? fo 
Neuiref -> A brief reference about the graphical use|E 


IPython profile: scipybook2 


In [12]: r.edit_traits() 
Out[12]: <traitsui.ui.UI at @x8bfce40> 


In [13]: r.edit_traits() 

Out[13]: <traitsui.ui.UI at @x8cb7750> 
recalculating 

recalculating 

recalculating 

recalculating 昌 


图 7-3 修改 两 个 对 话 框 中 的 Height 或 Width 属性 会 重新 计算 Area， 并 同时 更 新 对 话 框 中 的 显示 
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修改 任意 一 个 界面 中 的 width 或 height 属性 , 在 输入 数值 的 同时 , 两 个 界面 中 的 Area、 Height 
和 Width 等 各 个 文本 框 同 时 更 新 ， 每 次 键盘 按键 都 会 调用 _get_area0。 此 时 在 IPython 窗口 中 直 
接 修改 width 的 值 ， 也 会 调用 _get_area0。 

当 打开 界面 之 后 ， 界 面 对 象 开始 监听 对 象 r 的 各 个 属性 ， 因 此 在 修改 rwidth 之 后 ， 系 统 设 
置 rarea 的 标志 为 需要 重新 计算 ， 然 后 发 现 rarea 的 值 有 对 象 在 监听 ， 因 此 直接 调用 _get_area0 
更 新 其 值 ， 并 且 通 知 所 有 的 监听 对 象 ， 因 此 界面 就 一 齐 更 新 了 。 每 个 界面 都 会 在 Trait 属性 所 对 
应 的 CTrait 对 象 中 添加 监听 对 象 ; 


t = r.trait("area") # 获 得 与 area 属性 对 应 的 CTrait 对 象 

t._notifiers(True) # _notifiers 方法 返回 所 有 的 通知 对 象 ， 当 aera 属性 改变 时 ， 这 里 对 象 将 被 通知 
[<traits.trait_notifiers.FastUITraitChangeNotifywWrapper at 86x8b9e3f6>， 

<traits.trait notifiers.FastUITraitChangeNotifyWrapper at 6x8bd4e16>] 


由 于 我 们 弹出 了 两 个 界面 ， 因 此 有 两 个 需要 通知 的 对 象 。 如 果 再 运行 一 次 redit_traits0， 这 
个 列表 将 有 3 个 元 素 。 
7.2.3 Trait 属性 监 


HasTraits 对 象 的 所 有 Trait 属性 都 自动 支持 监听 功能 。 当 某 个 Trait 属性 的 值 发 生变 化 时 ， 
HasTraits 对 象 会 通知 所 有 监听 此 属性 的 函数 。 监 听 函 数 分 为 静态 和 动态 两 种 ， 下 面 的 程序 演示 
了 这 两 种 监听 方式 


from traits.api import HasTraits, Str, Int 


class Child ( HasTraits ): 


name = Str 
age = Int 
doing = Str 


def _ str_ (self): 
return "%s<%x>" % (self.name, id(self)) 


# 当 age 属性 的 值 被 修改 时 ， 下 面 的 函数 将 被 运行 
def _age_changed ( self, old, new ): © 
print "%s.age changed: form %s to %s" % (self, old, new) 


def _anytrait_changed(self, name, old, new): ©@ 
print “anytrait changed: %s.%s from %s to %s" % (self, name, old, new) 


def log trait changed(obj, name, old, new): © 
print "log: %s.%s changed from %s to %s" % (obj, name, old, new) 


h = Child(name 
k = Child(name 
h.on trait_change(log trait changed, name="doing") © 
anytrait changed: <8b823f6>.age from 6 to 9 
<8b823f6>.age changed: form 6 to 9 

anytrait changed: HaiYue<8b823f6>.name from to HaiYue 
anytrait changed: <8b823c@>.age from 8 to 2 
<8b823c6>.age changed: form 6 to 2 

anytrait changed: KaiWen<8b823c6>.name from to Kaiwen 


用 
中 


"HaiYue", age=9) 


"KaiWen", age=2) 


@ 当 Child 对 象 的 age 属性 值 发 生变 化 时 ， 对 应 的 静态 监听 函数 _age_changed0 将 被 调用 。 
@_anytrait_changed0 是 一 个 特殊 的 静态 监听 函数 ， 任 何 Trait 属性 发 生变 化 时 都 会 调用 此 函数 。 

@ 通 过 调用 h.on_trait_change0， 动 态 地 将 @ 普 通 函数 log_trait_changed0 和 对 象 h 的 doing 属 
性 联系 起 来 。 当 doing 属性 改变 时 ，log_trait_changed0 将 被 调用 。 

下 面 分 别 改变 h 和 的 属性 : 


h.age = 16 

h.doing = "sleeping" 

k.doing = "playing" 

anytrait changed: HaiYue<8b823f6>.age from 9 to 16 
HaiYue<8b823f6> .age changed: form 9 to 19 

anytrait changed: HaiYue<8b823f@>.doing from to sleeping | 松 
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log: HaiYue<8b823f6>.doing changed from to sleeping | 入 
anytrait changed: KaiWen<8b823c@>.doing from to playing | 图 
静态 监听 函数 的 参数 有 如 下 几 种 形式 ， |; 面 


_age_changed(self) 
_age_changed(self，new) 
_age_changed(self，old，new) 
_age_changed(self，name，old，new) 


而 动态 监听 函数 的 参数 有 如 下 几 种 形式 : 


observer() 

observer(new) 
observer(name，new) 
observer(obj，name，new) 
observer(obj，name，old，new) 


其 中 obj 是 拥有 Trait 属性 的 对 象 ，name 为 值 发 生变 化 的 属性 名 ，old 为 改变 之 前 的 值 ，new 
为 改变 之 后 的 值 。 
当 多 个 Trait 属性 都 需要 使 用 同一 个 监听 函数 时 ， 可 以 使 用 @on_trait_change 装饰 器 : 
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Q@on_trait_change( names ) 
def any_method name( self, ...): 


当 names 所 描述 的 Trait 属性 改变 时 ， 将 调用 any_method_name0，names 是 一 个 字符 串 或 列 


表 ， 它 能 够 很 灵活 地 描述 一 组 Trait 属性 。 下 面 列 举 了 


属性 发 生变 化 时 将 调用 被 修饰 的 监听 函数 ; 


。 用 逗号 


yb 


e 用 列表 描述 多 个 属性 名 : [foo*bar]， 功 能 同上 。 
e 描述 柑 套 的 属性 名 : foo.bar， 当 selffoo.bar 或 selffoo 改变 时 。 


e 描述 柑 套 的 属性 名 : foo:bar， 当 selffoo.bar 改变 时 。 

列表 属性 ，'foo[]'，selffoo 是 一 个 列表 ， 当 它 本 身 或 它 的 元 素 改变 时 

指定 属性 名 开头 的 字符 串 : foot， 当 以 foo 开头 上 

+foo'， 当 有 名 为 foo 的 元 数据 的 属性 改变 时 。 
F 


指定 元 数据 : 
完整 的 匹配 方法 请 参考 Traits 库 的 用 户 手册 。 


class HasName(HasTraits) : 
name = Str() 


def _ str_ (self): 


class Inner(HasName): 
x = Int 
y = Int 


class Demo(HasName) : 
X = Int 
y= Int 


面 的 


z = Int(monitor=1) # 有 元 数据 属性 monitor 的 Int 


inner = Instance(Inner) 
alist = List(Int) 
test1 = Str() 

test2 = Str() 


def _inner default(self): 
return Inner(name="inner1") 


隔 开 多 个 属性 名 : foo,bar， 当 selffoo 或 self.bar 改变 时 。 


的 属性 改变 时 。 


呈 序 演示 了 上 述 


return "<%s %s>" % (self._class_._name _，self.name) 


@on_trait_change("x,y,inner.[x,y],test+,+monitor,alist[]") 


def event(self, obj, name, old, new): 
print obj, name, old, new 
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匹配 语法 ; 


from traits.api import HasTraits，Str，Int，Instance，List，on_trait_change 


常用 的 属性 匹配 语法 ， 当 与 之 匹配 的 


下 面 是 各 种 属性 值 改变 时 的 运行 结果 : 


d = Demo(name="demo") 

d.x = 16 # 与 x 匹配 

d.y = 26 # 与 y 匹配 

.inner.x = 1# 与 inner.[x,y] 匹 配 


ao 


inner.y = 2 # 与 inner.[x,y] 匹 配 


d. 

d.inner = Inner(name="inner2") # 与 inner.[x,y] 匹 配 
d.test1 = "ok" # 与 test+ 匹 配 
d.test2 = "hello" # 与 test+ 匹 配 
d. 

d. 

d. 

d. 


z = 3 # 与 tmonitor 匹配 
alist = [3] # 与 alist[] 匹 配 
alist.extend([4,5]) # 与 alist[] 匹 配 
alist[2] = 16 # 与 alist[] 匹 配 
<Demo demo> x 8 16 
<Demo demo> y 8 26 
<Inner innerl> x 8 1 
<Inner innerl> y 6 2 
<Demo demo> inner <Inner inner1><Inner inner2> 


<Demo demo> test1 ok 

<Demo demo> test2 hello 

<Demo demo> z 6 39 

<Demo demo> alist [] [3] 

<Demo demo> alist_items [] [4，5] 
<Demo demo> alist_items [5] [16] 


7.2.4 Event 和 Button 属性 


Event 和 Button 是 两 个 专门 用 以 处 理事 件 的 Trait 类 型 ，Button 从 Event 继承 ， 它 除了 Event 
的 事件 触发 功能 之 外 ， 还 可 以 通过 TraitsUI 库 自 动 生成 界面 中 的 按钮 控件 。Event 属性 和 其 他 
Trait 属性 相 比 有 如 下 区 别 : 
e 对 Event 属性 赋值 将 触发 与 其 绑 定 的 属性 监听 事件 ， 而 通常 的 Trait 属性 只 有 在 其 值 改 
变 时 才 触 发 事件 。 
e Event 属性 不 存储 值 ， 因 此 对 其 赋值 只 是 起 到 触发 事件 的 作用 ， 而 所 赋 的 值 将 被 忽略 。 
试图 获取 Event 属性 值 将 抛 出 异常 。 由 于 Event 属性 所 触发 的 事件 不 表示 某 个 属性 值 的 
变化 ， 因 此 它们 所 对 应 的 静态 监听 函数 名 为 _event_fired 而 不 是 _event_changed。 下 面 是 
使 用 Event 属性 的 例子 : 


from traits.api import HasTraits, Float, Event, on trait change 


class Point(HasTraits): © 
x = Float(6.6) 
y = Float(86.9) 


副 洒 党 图 褒 二 荡 央 INShell 8 Slell 


411 


KS 


国 泌 


贺 舍 坦 节 出 -Insllell 8 she 由 


，Python 科学 计算 (第 2 版 ) 
updated = Event 
@on_trait_change( "x,y” ) 
def pos_changed(self): © 


self.updated = True 


def updated fired(self): © 
self.redraw() 


def redraw(self): 9 
print "redraw at %s, %s" % (self.x, self.y) 


上 在 Point 类 中 定义 了 xy 和 updated 三 个 Trait 属 性 .@ 使 用 @on_trait_change 对 pos_changed0 
方法 进行 修饰 ， 当 x 或 y 属 性 被 修改 时 pos_changed0 会 被 调用 。 其 中 通过 设置 updated 属性 触发 
updated 事件 。 @ 在 updated 的 事件 处 理 方法 _updated_fired0 中 调用 redraw0 以 重新 绘制 。 下 面 是 修 


改 各 种 属性 时 的 事件 触发 情况 : 


p = Point() 
p.x = 1 
p.y = 1 


p.x = 1 # 由 于 x 的 值 已 经 为 1， 因此 不 触发 事件 
p.updated = True 

p.updated = 8 # 给 updated 赋 任 何 值 都 能 触发 
redraw at 1.6，6.9 

redraw at 1.6，1.6 

redraw at 1.6，1.6 

redraw at 1.6，1.6 


7.2.5 动态 添加 Trait 属性 


前 面 介绍 的 都 是 在 类 的 定义 中 声明 Trait 属性 ， 以 及 在 类 的 对 象 中 使 用 Trait 属性 。 由 于 
Python 是 动态 语言 ， 因 此 Traits 库 也 提供 了 直接 为 某 个 特定 的 对 象 添加 Trait 属性 的 方法 。 
在 下 面 的 例子 中 ， 直 接生 成 一 个 HasTraits 类 的 实例 a， 然 后 调用 add_trait0 方 法 以 动态 地 为 


a 添加 一 个 名 为 x 的 Trait 属性， 其 类 型 为 Float， 初 始 值 为 3.0: 


a = HasTraits() 
a.add trait("x", Float(3.0)) 
a.x 


3.6 


接 下 来 创建 一 个 HasTraits 类 的 实例 b， 用 add_trait0 为 b 添加 一 个 
HasTraits 类 的 实例 。 然 后 把 实例 a 赋值 给 实例 b 的 属性 a: 
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属性 a， 指 定 


类 型 为 


b = HasTraits() 
b.add trait("a", Instance(HasTraits)) 
b.a=a 


然后 为 实例 b 添加 一 个 类 型 为 Delegate 的 属性 y， 在 by 和 b.ax 之 间 建 立 代理 连接 。 


modify=Tme 表示 可 以 通过 by 修改 bax 的 值 。 可 以 看 到 当 将 by 的 值 改 为 10 时 ，ax 的 值 也 同 
时 改变 了 。 


from traits.api import Delegate 

b.add trait("y", Delegate("a", "x", modify=True)) 
print b.y 

b.y= 16 

print a.x 

3.6 

16.6 


实际 上 ， 通 过 赋值 语句 为 HasTraits 对 象 添加 新 属性 时 ， 这 些 属性 都 是 Trait 属性 : 


class A(HasTraits): 
pass 


a.X = 

a.y = "string" 

a.traits() 

{f "trait_added ' : <traits.traits.CTrait at 9x3927c96>， 
'trait modified': <traits.traits.CTrait at @x3927c38>, 
'x': <traits.traits.CTrait at 9x3927f56>， 

'y': <traits.traits.CTrait at 6x3927f56>} 


只 不 过 它们 的 类 型 为 Python， 因 此 它们 能 够 接收 任何 类 型 的 对 象 ， 起 不 到 校 验 的 作用 : 


a.trait("x").trait_type 
<traits.trait_ types.Python at 6x39399b6> 


7.3 TraitsUI 入 门 


A 与 本 节 内 容 对 应 的 Notebook 为 : 07-traits/traits-300-uiintro.ipynb。 


Python 有 着 丰富 的 界面 开发 库 ， 除 了 缺 省 安装 的 Tkinter 以 外 ，wxPython、PyQt4 等 都 是 非 
常 优秀 的 界面 开发 库 。 但 是 它们 有 如 下 共同 的 问题 : 需要 开发 者 掌握 众多 的 API 函数 ， 许 多 细 
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节 需 要 开发 者 自己 配置 ， 例 如 控件 的 属性 、 位 置 以 及 事件 响应 等 。 
在 开发 科学 计算 程序 时 ,通常 希望 快速 实现 一 个 够 用 的 界面 ,让 用 户 能 够 交互 式 地 处 理 数 
据 , 而 又 不 希望 在 界面 制作 上 花费 过 多 的 精力 。 以 Traits 库 为 基础 、 以 MVC 模式 为 设计 思想 的 
TraitsUI 库 就 是 实现 这 一 理想 的 最 佳 方案 。 
MVC 的 英文 全 称 为 Model-View-Controller， 它 的 目的 是 实现 一 种 动态 的 程序 设计 ， 简 化 程 
序 的 修改 和 扩展 工作 ， 并 且 使 程序 的 各 个 部 分 能 够 充分 被 重复 利用 。 
e Model( 模 型 ); 程序 中 存储 数据 以 及 对 数据 进行 处 理 的 部 分 。 
e View( 视 图 ): 程序 的 界面 部 分 ， 实 现 数据 的 显示 。 
e Controller( 控 制 器 ): 起 到 视图 和 模型 之 间 的 组 织 作用 ， 控 制程 序 的 流程 ， 例 如 将 界面 操 
作 转 换 为 对 模型 的 处 理 。 
7.3.1 默认 界面 
TraitsUI 库 是 一 套 建立 在 Traits 库 基 础 之 上 的 用 户 界 面 库 。 它 和 Traits 库 紧密 相连 ， 如 果 读 
者 已 经 设计 好 了 一 个 从 HasTraits 继承 的 类 ， 那 么 直接 调用 configure_traits0 方 法 ， 系 统 将 会 使 用 
TraitsUI 库 自 动 生成 对 话 框 界 面 ， 以 供用 户 交互 式 地 修改 对 象 的 Trait 属性 。 下 面 是 一 个 简单 的 
例子 : 


from traits.api import HasTraits, Str, Int 


class Employee(HasTraits): 
name = Str 
department = Str 
salary = Int 
bonus = Int 


Employee().configure_ traits() 


此 程序 创建 一 个 Employee 类 的 对 象 ,然后 调用 configure_traits0 来 显示 出 如 图 7-4( 左 ) 所 示 的 
默认 界面 : 
在 此 自动 生成 的 界面 中 ,所 有 的 属性 都 采用 文本 框 编辑 ， 并 且 每 个 文本 框 的 前 面 都 有 一 个 
文字 标签 ， 上 面 的 文字 根据 Trait 属性 名 自动 生成 : 第 一 个 字母 变 为 大 写 ， 所 有 的 下 划 线 变 为 空 
格 。 对 话 框 的 最 下 面 提供 了 OK 和 Cancel 按钮 以 确定 或 取消 对 Trait 属性 的 修改 。 

于 salary 属 性 定义 为 Int 类 型 , 当 输 入 不 能 转换 为 整数 时 ,输入 框 将 以 红色 背景 表示 错误 ， 
并 且 OK 按钮 变 成 无 效 ， 如 图 7-4( 右 ) 所 示 。 


计 


Bonus: 10000 
Department 
Name: 


Salary: 0 


Salary. hello| 
OK 


图 74 自动 生成 的 Employee 类 的 对 话 框 ( 左 )， 提 醒 非 法 的 输入 数据 并 且 使 OK 按钮 无 效 ( 右 ) 


没有 写 一 行 界面 相关 的 代码 ， 就 能 得 到 一 个 够 实用 的 界面 ， 应 该 还 是 很 令 人 满意 的 。 为 了 
手工 控制 界面 的 设计 和 布局 ， 就 需要 添加 自己 的 代码 了 。 


7.3.2 用 View 定义 界面 


HasTraits 的 派生 类 用 Trait 属性 保存 数据 ， 它 相当 于 MVC 模式 中 的 模型 。 当 没有 指定 界面 
显示 方式 时 ，Traits 库 会 自动 创建 一 个 默认 的 界面 。 可 以 通过 视图 对 象 为 模型 设计 更 加 实用 的 


界面 。 
1. 外 部 视图 和 内 部 视图 


下 面 是 用 视图 对 象 定义 界面 的 完整 程序 ， 


部 门 技术 部 


姓名 张 开 发 


工资 10000 


图 7-5 显示 了 界面 截图 。 


奖金 2000 


图 7-5 使 用 视图 对 象 描述 界面 


from traits.api import HasTraits, Str, Int 


from traitsui.api import View, Item © 


class Employee(HasTraits): 
name = Str 
department = Str 
salary = Int 
bonus = Int 


view = View( @ 


Item('department' ，label=u" 部 门 "，tooltip=u" 在 哪个 部 门 干 活 "),，@ 


Item('name' ，label=u" 姓 名 ")， 
Item('salary'，label=u" 工 资 ")， 
Item('bonus' ，l1abel=u" 奖 金 ")， 


title=u" 员 工资 料 ",，width=256,，height=158, resizable=True @ 


就 国 和 广 址 式 陨 NShell 8 Shell 


加 泌 


贺 价 得 节 卫 -InsHeJL 8 SN 


RS 


国 泌 


416 | 


Python 


traitsui.api 9 
中 的 控件 入 
@ 在 Employee 类 下 包 
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) 


p = Employee() 
p.configure traits() 


此 程序 在 模型 类 Employee 的 基础 之 上 添加 了 界面 显示 相关 的 代码 。@ 界 面相 关 的 内 容 都 在 


Ph 定义， 这 里 从 大 


中 载 入 View 和 Item。View 是 描述 界面 的 视图 类 ，Iem 是 描述 界面 


模型 对 象 的 Trait 属性 之 间 关系 的 类 。 


建 一 个 View 对 象 ， 其 中 为 Employee 类 的 每 个 Trait 属性 创建 了 对 应 


位 ， 每 个 Iem 对 象 描述 界面 中 的 一 个 编辑 器 ， 这 些 编辑 器 用 于 编辑 模型 对 象 中 对 应 的 Trait 属 
性 的 值 。 界 面 中 的 编辑 器 


名 提 


指定 与 编 和 


还 


但 。 


Pull 
ES 


属 必 
表 亡 


E, title 


:窗口 的 大 小 可 变 。 


安 照 Iem 对 象 传递 给 View0 的 先后 顺序 显示 ， 而 不 再 按照 Traits 属性 


序 。Item 对 象 有 许多 参数 ， 它 们 对 Item 对 象 的 内 容 、 表 现 以 及 行为 进行 描述 。 第 一 个 参数 
器 对 应 的 Trait 属性 名 ，label 和 tooltip 参数 设置 编辑 器 的 标签 和 提示 文本 。Item 对 象 
[很 多 其 他 属性 ， 请 读者 参考 TraitsUI 的 用 户 手 册 ， 或 在 IPython 中 输入 Iem?? 直 接 查 看 源 代 
Item 类 从 HasTraits 继承 ， 因 此 它 的 属性 都 是 Trait 属性 。 

除了 Item 之 外 ，TraitsUI 还 定义 了 Item 的 几 个 派生 类 : Label、Heading 和 Spring。 它 们 只 用 
上 助 界面 布局 ， 因 此 不 i 
@View 类 也 从 HasTraits 继承 ， 可 以 直接 在 创建 View 对 象 时 ， 通 过 关键 字 参 数 设 置 其 Trait 
届 性 为 窗口 标题 栏 中 的 文字 ，width 和 height 属性 为 窗口 的 大 小 ，resizable 属性 为 True 


需要 和 模型 对 象 的 Trait 属性 关联 。 


同一 个 模型 对 象 可 以 通过 多 个 视图 对 象 用 不 同 的 界面 显示 ， 下 面 看 一 个 例子 : 


from traits.api import HasTraits, Str, Int 
from traitsui.api import View, Group, Item © 


g1 = [Item('department' ，1abel=u" 部 门 "，tooltip=u" 在 哪个 部 门 干 活 ")，@ 
Item('name' ，label=u" 姓 名 ")] 

8g2 = [Item('salary'，label=u" 工 资 ")， 
Item( 'bonus' ，label=u" 奖 金 ")] 


class Employee(HasTraits): 


name = Str 
department = Str 
salary = Int 
bonus = Int 


traits view = View( © 
Group(*g1，label = u' 个 人 信息 '，show_border = True)， 
Group(*g2，label = u' 收 入 '，show_border = True)， 
title = u" 缺 省 内 部 视图 ") 


another_view = View( @ 
Group(*g1，label = u' 个 人 信息 '，show_border = True)， 
Group(*g2，label = u' 收 入 '，show_border = True)， 
title = u" 另 一 个 内 部 视图 ") 


global view = View( ©@ 
Group(*g1，label = u' 个 人 信息 '，show_border = True)， 
Group(*g2，label = u' 收 入 '，show_border = True)， 
title = u" 外 部 视图 ") 


p = Employee() 


# 使 用 内 部 视图 traits_view 
p.edit traits() @ 


@ 从 TraitsUI 库 载 入 Group 类 ， 用 Group 对 象 可 以 对 界面 中 的 编辑 器 分 组 。 为 了 后 续 定义 
视图 对 象 的 程序 更 加 简洁 , @ 程 序 中 定义 了 两 个 全 局 列表 gl 和 g2, 它们 的 元 素 都 是 Item 对 象 。 

昌 @ 在 Employee 类 内 部 用 View0 定 义 了 两 个 视图 对 象 : traits_view 和 another_view。 而 @ 定 
义 了 一 个 全 局 的 视图 对 象 ， global_view。 在 定义 视图 对 象 时 ， 用 Group 对 Item 对 象 分 组 。 

值得 注意 的 是 ，Employee 类 中 定义 的 两 个 视图 对 象 既 不 是 类 的 属性 ， 也 不 是 实例 的 属性 。 
这 些 内 部 视图 对 象 会 放 到 Employee 类 的 _view_traits_ 属 性 中 。_view_traits_ 属 性 是 一 个 
ViewElements 对 象 ， 它 的 content 属性 是 保存 所 有 内 部 视图 的 字典 : 


Employee._ view traits__.content.keys() 
['another_view', 'traits view’'] 
@ 当 调用 edit_traits0 以 显示 界面 时 , 缺 省 使 用 模型 类 内 部 定义 的 缺 省 视图 对 象 traits_view 生 
成 界面 。 也 可 以 使 用 view 参数 指定 显示 界面 时 所 使 用 的 内 部 视图 对 象 的 名 称 : 


# 使 用 内 部 视图 another_view 
p.edit traits(view="another_view") 


还 可 以 直接 将 视图 对 象 传递 给 view 参数 ， 这 样 可 以 使 用 在 模型 类 之 外 定义 的 视图 对 象 来 
生成 界面 : 


# 使 用 外 部 视图 viewl 


p.edit traits(view=global_view) 


图 7-6 显 示 了 上 面 三 种 视图 对 象 所 生成 的 界面 ， 每 个 视图 的 窗口 标题 都 不 同 。 由 于 这 三 个 
界面 对 应 于 同一 个 模型 对 象 ， 因 此 无 论 在 哪个 窗口 中 修改 模型 对 象 的 属性 ， 另 外 两 个 窗口 的 内 


容 也 会 同步 更 新 。 
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个 人 信息 


个 人 信息 】 收入 


个 人 信息 | 双双 


部 门 开发 名 
姓名 张 开 发 


工资 10000 


部 门 开发 部 


奖金 2000 


姓名 张 开 发 


图 7-6 使 用 外 部 视图 和 内 部 视图 定义 界面 


edit_traits0 和 configure_traits() 一 样 用 于 生成 界面 ， 


不 进入 后 台 界 面 库 的 消息 循环 


后 立即 关闭 ， 程 序 的 运行 也 随 之 结束 。 而 在 configure_traits0 中 将 进入 消息 循环 ， 直 到 
所 有 窗口 。 因 此 通常 主 界面 窗口 或 模式 对 话 框 使 用 configure_traits0 显 示 ， 而 无 模式 窗 


， 因 此 如 果 直 接 运 行 只 调 


它们 的 区 别 在 于 edit_traits0 显 示 界 面 之 后 


用 edit_traits0 的 程序 ， 界 面 将 在 显示 之 
日 户 关闭 
或 对 话 


框 则 用 edit_traits0 显 示 。 在 IPython Notebook 中 ， 可 以 通过 %gui qt 或 %gui wx 命令 启动 界面 消息 
循环 ， 因 此 无 论 使 用 哪个 方法 显示 界面 ， 界 面 都 不 会 阻塞 Notebook 内 核 的 运行 。 


用 TraitsUI 库 创建 的 界面 可 以 选择 后 台 界 面 库 ， 目 前 支持 的 有 qt4 和 wx 两 种 。 在 启动 


[9 
Qt 作为 后 台 界面 库 。 


程序 时 添加 -toolkit qt4 或 -toolkit wx 以 选择 使 用 何 种 界面 库 生 成 界面 。 本 书 中 全 部 使 用 


在 本 节 的 例子 中 ，Employee 类 用 于 保存 数据 ， 因 此 它 属于 MVC 模式 中 的 模型 ， 而 View 


对 象 定义 了 Employee 的 界面 


i 显示 部 分 ， 它 属于 视图 


。 通 过 将 视图 对 象 传递 给 模型 对 象 的 


configure_traits0 方 法 ， 将 模型 对 象 和 视图 对 象 联系 起 来 。 在 定义 编辑 器 的 Iem 对 象 中 ， 不 直接 


引用 模型 对 象 的 属性 ， 而 是 通 
很 弱 ， 只 需要 属性 名 匹配 ， 同 
有 时 候 我 们 希望 模型 类 


-个 视图 对 象 可 以 运用 到 


道 如 何 显示 自己 ， 这 时 可 


过 属性 名 与 模型 对 象 相关 联 。 这 样 模型 和 视图 之 间 的 耦合 性 将 会 


不 同 的 模型 对 象 之 上 。 
以 在 模型 类 内 部 定义 视图 。 在 模型 类 中 


定义 的 视图 可 以 被 其 派生 类 继承 ， 因 此 派生 类 能 使 用 父 类 的 视图 。 在 调用 configure_traits0 时 如 


果 不 设 置 view 参数 , 将 使 用 模型 对 象 内 部 的 缺 省 视图 天 
个 视图 对 象 ， 则 缺 省 使 用 名 为 traits_view 的 视图 对 象 。 


2. 多 模型 视图 


在 上 节 的 例子 中 ， 一 个 模型 可 以 对 应 多 个 视图 。 同 


的 数据 显示 在 一 个 界面 窗口 中 
运行 界面 如 图 7-7 所 示 : 


象 生 成 界面 。 如 果 在 模型 类 中 定义 了 多 


样 ， 使 用 一 个 视图 可 以 将 多 个 模型 对 象 


。 下 面 是 用 一 个 视图 对 象 同时 显示 多 个 模型 对 象 的 例子 ， 程 序 的 


from traits.api import HasTraits, Str, Int 


from traitsui.api import 


class Employee(HasTraits) 
name = Str 


View, Group, Item 


department = Str 
salary = Int 
bonus = Int 


comp_view = View( © 


G 


) 


roup( 
Group( 
Item( 'p1.department' ，label=u" 部 门 ")， 
Item('pl.name' ，1label=u" 姓 名 ")， 
Item('p1.salary'，label=u" 工 资 ")， 
Item( 'p1.bonus' ，label=u" 奖 金 ")， 
show_border=True 


)， 

Group( 
Item( 'p2.department'，1label=u" 部 门 ")， 
Item( 'p2.name'，1abel=u" 姓 名 ")， 
Item('p2.salary'，label=u" 工 资 ")， 
Item( 'p2.bonus' ，1label=u" 奖 金 ")， 
show_border=True 

)， 


orientation = “horizontal 


了 


title = 山 "员工 对 比 " 


) 


employeel = Employee(department = "天 


f 发 "，name = u" 张 三 "，salary = 3868, bonus = 366) @ 


employee2 = Employee(department = u" 销 售 "，name = u" 李 四 "，salary = 4868，bonus = 486) 


HasTraits().configure_traits(view=comp_view, context={"p1":employee1, "p2":employee2}) © 


部 门 开 滥 部 门 销售 


姓名 张 三 姓名 李 四 
工资 3000 工资 4000 
奖金 300 奖金 400 


图 7-7 用 一 个 视图 同时 显示 多 个 模型 对 象 


@ 对 于 前 面 的 模型 类 Employee, 创建 复合 视图 对 象 comp_view, 它 能 同时 显示 两 个 Employee 
对 象 。 注 意 Item 对 象 的 第 一 个 参数 不 是 简单 的 模型 对 象 的 属性 名 ， 它 


两 个 属 怕 


E: object 和 name。 例 如 参数 "pl.department" 将 设置 Iem 对 象 的 


同时 设置 了 Item 对 象 的 


object 


属性 为 "pl1"， 设 置 


name 属性 为 "department"。 object 属性 告诉 Iem 对 象 如 何 找到 模型 对 象 , 而 name 属性 则 告诉 Iem 
对 象 如 何 找到 模型 对 象 中 与 之 对 应 的 属性 。 
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@ 接 下 来 ,创建 组 成 模型 对 象 的 两 个 Employee 对 象 : employeel 和 employee2。 蛋 在 显示 界 
面 时 , 使 用 context 参 数 将 包含 两 个 模型 对 象 的 字典 传递 给 configure_traits0。 通 过 context 参 数 传 
递 的 实际 上 是 视图 所 对 应 的 模型 。 这 里 的 模型 对 象 是 一 个 字典 ， 它 的 键 和 Item 对 象 的 object 属 
性 的 值 相同 。 由 于 已 经 通过 context 参数 传递 了 模型 对 象 ， 因 此 configure_traits0 方 法 原本 所 属 的 
对 象 将 不 会 被 用 作 界面 的 模型 对 象 。 这 里 直接 创建 一 个 临时 的 HasTraits 对 象 ， 然 后 调 
configure_traits0 方 法 。 

如 果 读 者 认为 这 种 写法 有 些 取 巧 ， 也 可 以 直接 调用 视图 对 象 的 ui0 方 法 来 显示 界面 ， 它 的 
参数 就 是 界面 所 要 显示 的 模型 对 象 。 由 于 ui0 和 edit_traits0 一 样 ， 不 会 启动 界面 库 的 消息 循环 ， 
因此 需要 在 运行 ui0 之 后 添加 开始 消息 循环 的 代码 。 下 面 的 消息 循环 代码 支持 所 有 的 后 台 界 
面 库 : 


from pyface.api import GUI 
comp_view.ui({"p1":employeel1, "p2":employee2}) 
GUI().start_event_loop() # 开始 后 台 界 面 库 的 消息 循环 


3. Group 对 象 


在 前 面 例子 的 视图 定义 中 , 我 们 通过 Group 对 象 将 一 组 相关 的 Iem 对 象 组 织 在 一 起 。 本 节 
详细 介绍 如 何 使 用 Group 对 象 组 织 界面 。 

在 前 面 的 两 个 例子 中 , 将 View 对 象 中 外 层 Group 的 orientation 属性 设置 为 horizontal'， 这 样 
内 部 的 两 个 Group 对 象 将 水 平方 向 排列 。 下 面 的 代码 显示 了 View 对 象 中 Group 的 霸 套 关系 : 


View( 
Group( 
Group(...)， 
Group(...)， 
orientation = "horizontal’ 
) 
) 


在 创建 Group 时 ， 可 以 通过 设置 orientation 和 layout 等 属性 ， 改 变 Group 内 容 的 呈现 方式 。 
由 于 某 些 设置 会 经 常用 到 ， 因 此 TraitsUI 还 提供 了 儿 个 Group 的 派生 类 来 覆盖 这 些 属 性 的 缺 省 
值 。 例 如 下 面 是 从 Group 类 继承 的 HSplit 类 的 代码 : 


class HSplit ( Group ): 
layout = "split" 
orientation = "horizontal' 


HSplit 对 象 将 它 所 包括 的 内 容 按照 水 平方 向 排列 ， 并 且 在 两 块 区 域 之 间 添 加 一 个 可 调整 位 
置 的 分 隔 条 ， 使 用 HSplit 和 下 面 的 代码 等 价 : 


Group( ... ， layout = 'split', orientation =“horizontal ') 
下 面 的 程序 演示 了 4 种 不 同 的 界面 分 组 方式 ， 效 果 如 图 7-8 所 示 。 


from traits.api import HasTraits, Str, Int 
from traitsui.api import View, Item, Group, VGrid, VGroup, HSplit, VSplit 


class SimpleEmployee(HasTraits): 
first_name = Str 
last_name = Str 
department = Str 


employee_number = Str 
salary = Int 
bonus = Int 
: 2 [3. 村 
items1 = [Item(name = 'employee_number' ，label=u' 编 号 ')， 5. 
Item(name ='department'，label=u" 部 门 "，tooltip=u" 在 哪个 部 门 干 活 ")， Ee 
Item(name = 'last_name' ,label=u" 姓 ")， 
Item(name = 'first_name', label=u" 名 ")] 加 
工 
， 轻 
items2 = [Item(name = 'salary'，label=u" 工 资 ")， 人 
Item(name = 'bonus' ，label=u" 奖 金 ")] 作 
Viewl = View( 界 
面 


Group(*items1, label 


u' 个 人 信息 '，show_border = True)， 
Group(*items2，label = u'" 收 入 '，show_border = True)， 
title = u" 标 签 页 方式 "， 


resizable = True 


上 


View2 = View( 
VGroup( 
VGrid(*items1，label = u' 个 人 信息 '，show_border = True，scrollable = True)， 
VGroup(*items2，label = u' 收 入 '，show_border = True)， 
)， 
resizable = True，width = 466，height = 256，title = 山 "垂直 分 组 ” 


View3 = View( 
HSplit( 
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VGroup(*items1, show_border = True， 
VGroup(*items2, show_border = True， 


scrollable = True)， 
scrollable = True)， 


resizable = True，width = 4896，height = 156，title = u" 水 平分 组 ( 带 调 节 栏 )" 


scrollable = True), 
scrollable = True), 


resizable = True，width = 2686，height = 369，title = u" 矢 直 分 组 ( 带 调 节 栏 )" 


)， 
) 
view4 = View( 
VSplit( 
VGroup(*items1, show_border = True， 
VGroup(*items2, show_border = True， 
)， 
) 


sam = SimpleEmployee() 

sam.configure_traits(view=view1) 
sam.configure_traits(view=view2) 
sam.configure_traits(view=view3) 
sam.configure_traits(view=view4) 


个 人 信息 
编号 : 部 门 


妈 二 二 分 钴 Elis 


编号 工资 0 
部 门 奖金 0 


工资 0 
奖金 0 


图 7-8 在 界面 中 用 Group 对 象 进行 分 组 


表 7-3 是 Group 的 各 种 派生 类 及 对 应 属性 的 缺 省 设置 : 


表 7. jiroup 姓 类 及 对 应 属性 的 设置 


派生 参数 
up ontal 水 平 排列 
w zontal 、lay， :now'、 水 平 排列 ， 当 超过 ”G 
= show_labels 属性 2 
编辑 器 的 标签 文 
全? 区 ontal、 layo plit 水 平分 隔 ， 中 间 
T xd ontal'、layo! ”abbed' 分 标签 页 显示 
V_ up a 垂直 排列 
V w al、layout= Vv、 垂直 排列 ， 当 超过 
V 1 al、layout= 垂直 排列 ， 可 折 
V 1 al、column 2 按照 多 列 的 网 格 ol 
网 格 的 列 数 
V t 浊 '、layout= 了 垂直 排列 ， 中 间 
ST 上 t、show ] ds、columns 等 属性 之 外 ， 
其 人 1 属 ， ] Item 一 样 ， 读 者 可 以 在 Group 类 的 溪 
细 攻 |。 
: 面 visible_when 和 enabled_when 属性 的 用 。 ro 
对 多 : 界 | 3 有效 ， 效 果 如 图 7-9 所 示 。 
由 It 也 提供 了 hen 和 enabled_when 属性 ， 用 法 和 Grc 


fre :raits.api import | 
fre :raitsui.api impor1 


cl: Shape(HasTraits): 


VGr 


1ape_type = Enum("! 
litable = Bool 
ry» Ww, h, r = [Int 


iew = View( 

VGroup( 
HGroup(Item! 
VGroup(Iteml 

visible 


(Item("x"), Item(" 


Iraits, Int, Bool, Enum, Property 
iew, HGroup, VGroup, Item 


tansle", "circle") 


Nape_type"), Item("editable")), 
'), Item("y"), Item("w"), Item("h"), 


sn "shape_type=="'rectangle 
), Item("r"), 


， enable 


hen 
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visible when="shape type=='circle'", enabled when="editable"), 


), resizable = True) 


shape = Shape() 
shape.configure traits() 


在 上 述 程序 中 ，Shape 是 一 个 表示 和 矩形 或 圆 形 的 类 ， 具 体形 状 
图 形 的 参数 则 由 x、y、w、h、r 等 属性 决定 。editable 属性 决定 是 否 
数 。 在 视图 定义 中 ， 使 用 VGroup 对 象 定义 了 两 个 编辑 器 组 ， 分 别 
通过 设置 VGroup 的 visible_when 和 enabled_when 属性 , 将 模型 对 象 
与 编辑 器 的 界面 显示 联系 起 来 。 

visible_when 和 enabled_when 属性 都 是 表示 布尔 表达 式 的 字符 串 


shape_type 


属性 决定 ， 而 


3 。 当 布尔 表达 


而 修改 图 形 参 


编辑 矩形 参数 和 圆 形 参 数 。 
的 shape type 和 editable 属性 


式 中 涉及 的 模 


型 对 象 的 属性 发 生变 化 时 ， 将 会 对 字符 串 求 值 ， 并 根据 求 值 结果 更 新 界面 的 显示 。 图 7-9 是 程 


序 的 显示 效果 , 其 中 左 图 对 应 的 shape_type 属性 为 "rectangle"，editabl 


时 ， 所 有 编辑 器 都 变 成 无 效 。 


e 属性 为 True。 兰 
属性 为 "rectangle" 时 , 将 显示 矩形 参数 的 编辑 器 , 隐藏 圆 形 参数 的 编辑 器 。 


4 shape_type 


当 editable 属性 为 False 


SD | < 
Snape type: sr IE 加 Er crcle | tdrtable: 回 ee emcee vv tditable: EY 
X10 
¥20 
媒 100 
H: 50 
图 7-9 演示 visible_when 和 enabled_when 属性 的 用 法 
4. 配置 视图 


前 面 介绍 了 如 何 使 用 Iem 和 Group 等 对 象 组 织 窗 口 界面 中 的 内 容 , 本 小 节 介绍 如 何 配 置 窗 
口 本 身 的 属性 。 通 过 kind 属性 可 以 修改 View 对 象 的 显示 类 型 ( 见 表 7-4); 


表 7-4 View 对 象 的 显示 类 型 


类 型 说 明 
modal 模式 窗口 , 非 即 时 更 新 
live 疾 模 式 窗口 ， 即 时 更 新 
livemodal 模式 窗口 ， 即 时 更 新 
nonmodal 非 模式 窗口 ， 非 即时 更 新 
panel，subpanel 嵌入 到 其 他 窗口 中 的 面板 ， 即 时 更 新 ， 非 模式 


茂 中 Imodal'、1ive'、Tivemodal'、nonmodal' 这 4 种 类 型 的 View 对 
。 所 谓 模式 窗口 ， 是 指 在 窗口 关闭 之 前 ， 程 序 中 的 其 他 窗口 都 不 


[ 象 都 采用 窗口 界面 显示 其 内 
能 被 激活 。 而 即时 更 新 则 是 


指 当 窗口 中 的 编辑 器 内 容 改变 时 ， 会 立即 反映 到 编辑 器 所 对 应 的 模型 对 象 的 属性 值 。 非 即时 更 
新 的 窗口 则 会 复制 模型 对 象 ， 所 有 的 改变 在 副本 上 进行 ， 只 有 当 用 户 单 击 OK 或 Apply 按钮 
定 修改 时 ， 才 会 修改 原始 模型 对 象 的 属性 。 
'wizard' 由 一 系列 特定 的 向 导 窗口 组 成 ， 属 于 模式 窗口 ， 并 且 
panel 和 'subpanel 则 是 嵌入 到 窗口 中 的 面板 ，panel 可 以 拥有 
则 没有 命令 按钮 。 
在 对 话 框 中 经 常 可 以 看 到 OK、Cancel、Apply 之 类 的 按钮 ， 它 们 被 称 为 命令 按钮 ， 完 成 所 
有 对 话 框 都 需要 的 一 些 共同 操作 。 在 TraitsUI 中 ， 这 些 按钮 可 以 通过 View 对 象 的 buttons 属性 
设置 ， 其 值 为 要 显示 按钮 的 列表 。 
TraitsUI 中 定义 了 UndoButton、ApplyButton、RevertButton、OKButton、CancelButton 等 6 个 
标准 的 命令 按钮 ， 每 个 按钮 对 应 一 个 名 字 , 在 指定 buttons 属性 时 ， 可 以 使 用 按钮 的 类 名 或 对 应 
的 名 字 。 与 按钮 类 对 应 的 名 字 就 是 类 名 除去 Button， 例 如 UndoButton 对 应 "Undo"。 
traitsui.menu 中 还 预定 义 了 一 些 命令 按钮 列表 ， 以 方便 用 户 直 接 使 用 整套 按钮 : 


时 更 新 数据 。 
己 的 命令 按钮 ， 而 subpanel' 


T， 到 


OKCancelButtons = [ OKButton, CancelButton ] 
ModalButtons = [ ApplyButton, RevertButton, OKButton, CancelButton, HelpButton ] 
LiveButtons = [ UndoButton, RevertButton, OKButton, CancelButton, HelpButton ] 


from traitsui import menu 
[btn.name for btn in menu.ModalButtons] 
[u'Apply', u'Revert', u'OK', u'Cancel'’, u'Help'] 


7.4 用 Handler 控制 界面 和 模型 


(@, 与 本 节 内 容 对 应 的 Notebook 为 : 07-traits/traits-400-handleripynb 


虽然 TraitsUI 库 的 界面 设计 使 用 MVC 模式 ， 但 是 在 前 面 的 介绍 中 ， 没 有 出 现 过 任何 有 关 
控制 器 的 代码 ， 这 是 因为 TraitsUI 库 提供 了 缺 省 的 控制 器 。 我们 可 以 通过 继承 Handler 类 来 创建 
自己 的 控制 器 类 ， 对 视图 和 模型 进行 更 自由 的 控制 。 
控制 器 最 主要 的 功能 是 界面 的 事件 处 理 ， 这 些 事件 或 对 模型 对 象 进行 修改 , 或 对 界面 进行 
修改 。 模 型 、 视 图 以 及 控制 器 都 是 单独 的 实体 。 一 个 视图 对 象 可 以 为 多 个 模型 对 象 生 成 界面 ， 
样 ， 一 个 控制 器 也 可 以 用 来 处 理 不 同 视 图 界面 中 所 产生 的 事件 。 因 此 控制 器 和 视图 以 及 模型 
之 间 不 存在 静态 的 联系 。 但 是 为 了 让 控制 器 能 够 真正 起 作用 ， 它 必须 知道 自己 所 要 处 理 的 视图 
和 模型 。 在 TraitsUI 中 ， 控 制 器 使 用 UIInfo 对 象 获得 它 所 对 应 的 视图 和 模型 。 

当 TraitsUI 从 视图 创建 界面 时 ,将 创建 一 个 UIInfo 对象, 其 中 包括 界面 和 模型 对 象 的 引 
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时 
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界面 事件 引起 控制 器 的 方法 被 调用 时 ， 这 个 UIInfo 对 象 会 作为 参数 传递 给 被 调用 的 方法 。 
TraitsUI 提供 了 三 种 指定 控制 器 的 方法 : 
e 将 控制 器 作为 视图 的 属性 ， 使 用 视图 对 象 的 handler 属性 指定 控制 器 对 象 ， 此 视图 所 产 

生 的 界面 都 使 用 它 进行 事件 处 理 。 

e 显示 界面 时 设置 : 调用 edit_traits0、configure_traits0 或 ui0 等 方法 显示 界面 时 ， 将 控制 器 
对 象 传递 给 handler 参数。 它 比 视图 的 handler 属性 有 更 高 的 优先 级 。 

e 将 视图 作为 控制 器 的 一 部 分 进行 定义 。 


7.4.1 用 Handler 处 理事 件 


团 部 
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当 显 示 某 个 视图 时 ， 将 会 按照 下 面 的 顺序 执行 控制 器 中 的 方法 : 

(D 创建 一 个 UInfo 对 象 。 

CO) 运行 控制 器 的 init_info0 方 法 。 

G) 创建 一 个 UI 对 象 来 表示 实际 的 窗口 。 

(9 运行 控制 器 的 init0 方 法 。 

(5) 运行 控制 器 的 position0 方 法 。 

(6) 显示 实际 的 窗口 。 

除了 上 面 的 init_info0、init0、position0 之 外 ， 当 用 户 操 作 界面 时 ， 会 运行 如 下 方法 : 
apply0: 用 户 单 击 窗口 中 的 Apply 按钮 ， 模 型 对 象 的 数据 更 新 之 后 。 
close0: 用 户 关闭 窗口 ， 在 窗口 关闭 之 前 。 

closed0: 窗口 关闭 之 后 。 

revert0: 用 户 单 击 了 Revert 或 Cancel 按钮 。 

setattr0: 用 户 通过 界面 修改 了 模型 对 象 的 某 个 Trait 属性 。 
show_help0: 用 户 单 击 了 窗口 中 的 Help 按钮 。 

下 而 通过 一 个 实例 演示 上 述 各 个 方法 的 用 法 : 


from traits.api import HasTraits, Str, Int 
from traitsui.api import View, Item, Group, Handler 
from traitsui.menu import ModalButtons 


g1 = [Item('department'，1label=u" 部 门 ")， 
Item( 'name' ，label=u" 姓 名 ")] 

g2 = [Item('salary'，label=u" 工 资 ")， 
Item('bonus' ，label=u" 奖 金 ")] 


class Employee(HasTraits): 
name = Str 
department = Str 
salary = Int 
bonus = Int 


def _department_changed(self): © 
print self, "department changed to 


， Self.department 


def _str_(self): © 
return "<Employee at @x%x>" % id(self) 


Viewl = View( 
Group(*g1，label = u' 个 人 信息 '，show_border = True)， 
Group(*g2，label = u' 收 入 '，show_border = True)， 
title = u" 外 部 视图 "， 
kind = "modal", ®@ 
buttons = ModalButtons 


class EmployeeHandler(Handler): © 


def init(self, info): 3 
super(EmployeeHandler, self).init(info) 万 

和 ee 如 

print "init called" 一 | 

加 

区 

def init_info(self, info): 
super( EmployeeHandler, self).init info(info) 次 
print "init info called" 制 

作 

图 

def position(self, info): 妆 
super(EmployeeHandler, self).position(info) 站 


print "position called” 


def setattr(self, info, obj, name, value): 
super(EmployeeHandler, self).setattr(info, obj, name, value) 
print "setattr called:%s.%s=%s" % (obj, name, value) 


def apply(self, info): 
super(EmployeeHandler, self).apply(info) 
print "apply called" 


def close(self, info, is_ok): 
super(EmployeeHandler, self).close(info, is_ok) 
print "close called: %s" % is ok 
return True 


def closed(self, info, is_ok): 
super(EmployeeHandler, self).closed(info, is_ok) 
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apply、close、closed、revert 等 方法 。 如果 close0 返 回 True, 则 
则 不 会 关闭 窗口 。 在 这 些 方 法 中 首先 调用 父 类 中 被 覆盖 的 方法 , 从 而 实现 缺 省 的 控制 器 
实际 上 父 类 Handler 中 的 大 部 分 方法 不 执行 任何 任务 ， 因 此 也 可 以 不 运行 它们 ， 请 读者 阅读 
Handler 类 的 源 代 码 以 了 解 每 个 方法 的 缺 省 功能 。 
人 @ 最 后 创建 控制 器 对 象 ， 并 将 它 传递 给 configure_traits0 的 handler 参数。 


print "closed called: %s" % is_ok 


def revert(self, info): 
super(EmployeeHandler, self).revert(info) 
print "revert called" 


zhang = Employee(name="Zhang") 

print "zhang is ", zhang 

zhang.configure_ traits(view=viewl, handler=EmployeeHandler()) © 
zhang is <Employee at 6x91lefcf6> 

init info called 

init called 

position called 

<Employee at 6x96223c8> department changed to 开发 
setattr called:<Employee at @x96223c8>.department= 开 发 
<Employee at @x96223c86> department changed to 开发 部 门 
setattr called:<Employee at 6x96223c6>.department= 开 发 部 门 
<Employee at 6x91lefcf6> department changed to 开发 部 门 
apply called 

close called: True 

closed called: True 

True 


@ 在 Employee 模型 类 中 ， 定 义 了 department 属性 的 事件 处 理 方法 _department_changed0。@ 


履 盖 标准 的 字符 串 转换 方法 _str_0， 用 以 显示 模型 对 象 所 占用 的 地 址 。 


目 为 了 显示 对 话 框 的 标准 按钮 ， 在 创建 视图 对 象 时 设置 View 的 kind 和 button 参数 分 别 为 


图 7-10 带 标准 按钮 的 模式 对 话 框 


ModalButtons。 这样 界 面 所 显示 的 对 话 框 是 “模式 窗口 、 非 即时 更 新 ”, 并 且 有 Apply、 
Revert、OK、Cancel、Help 等 按钮 ， 如 图 7-10 所 示 。 


@EmployeeHandler 从 Handler 继承 ， 它 覆盖 了 Handler 中 的 init、init_info、position、 setattr、 


窗口 会 被 关闭 ; 如 果 它 返回 


False， 


的 功能 。 


在 对 话 框 的 “部 门 ”文本 输入 框 中 输入 “开发 部 门 ”， 然 后 单 击 Apply 按钮 ， 最 后 单 击 
OK 按钮 关闭 对 话 框 。 程 序 在 命令 行 窗 口中 输出 控制 器 的 各 个 方法 的 调用 情况 。 
首先 ， 对 象 zhang 所 表示 对 象 的 地 址 为 0x91efcf0: 


zhang is <Employee at 6x91lefcf6> 


调用 configure taits0 之 后 , 在 窗口 显示 之 前 , 运行 了 init_info0、init0、position0 这 三 个 方法 : 


init info called 
init called 
position called 


接 下 来 输入 “开发 部 门 ”， 每 次 文本 输入 框 内 的 内 容 发 生 改 变 时 ， 都 会 修改 模型 对 象 的 
department 属性 ， 从 而 调用 模型 对 象 的 _department_changed0， 接 着 会 调用 控制 器 的 setattr0。 因 
此 控制 器 的 setattr0 是 在 模型 数据 更 新 之 后 被 调用 的 。 

<Employee at 6x96223c8@> department changed to 开发 
setattr called:<Employee at 6x96223c6> .department= 开 发 


<Employee at 8x96223c8> department changed to 开发 部 门 
setattr called:<Employee at @x96223c8>.department= 开 发 部 门 


setattr0 的 调用 参数 如 下 : 
setattr(self, info, obj, name, value) 


其 中 info 是 UIInfo 对 象 ，obj 是 被 修改 属性 的 模型 对 象 ，name 是 被 修改 的 属性 名 ， 而 value 
是 被 修改 之 后 的 值 。 仔 细 比 较 前 面 输出 的 对 象 地 址 就 会 发 现 ， 被 修改 属性 的 模型 对 象 的 地 址 并 
不 是 对 象 zhang 的 地 址 。 这 是 因为 “ 非 即时 更 新 ”的 对 话 框 会 对 一 个 副本 对 象 进行 修改 ， 在 单 
击 Apply 或 OK 按钮 时 , 才 会 将 副本 的 内 容 写 回 原 对 象 ; 而 对 副本 对 象 的 修改 是 “即时 更 新 ”的 。 

当 单 击 Apply 按钮 时 ， 程 序 输出 了 以 下 内 容 ， 可 以 看 到 原 对 象 的 department 属性 也 被 更 新 
为 “开发 部 门 ” 了 : 


<Employee at 6x9lefcf6> department changed to 开发 部 门 
apply called 


最 后 单 击 OK 按钮 ， 程 序 输出 下 面 两 行 ， 其 中 的 True 是 is_ok 参数 的 值 ，True 表示 用 户 单 
击 的 是 OK 按钮 ， 如 果 单 击 Cancel 按钮 则 为 False: 


close called: True 
closed called: True 


7.4.2 ”Controller 和 Ullnfo 对 象 


Handler 类 的 每 个 事件 处 理 方法 的 第 一 个 参数 都 是 UIInfo 对 象 ， 通 过 它 可 以 获得 控制 器 对 
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应 的 模型 对 象 和 视 


图 对 象 所 产生 的 界面 。 但 是 有 时 我 们 希望 通过 控制 器 的 属性 访问 它们 。 


TraitsUI 提 供 了 从 Handler 继承 的 Controller 类 ， 它 有 两 个 Trait 属性 : model 和 info， 分 别 保存 模 


型 对 象 和 UIInfo 对 象 。 


在 下 面 的 程序 中 , 模型 和 视图 采用 上 节 的 定义 , 为 了 在 显示 窗口 之 后 ,在 Notebook 中 继续 
运行 命令 ， 这 里 将 viewlkind 属性 修改 为 非 模式 窗口 。 创 建 模型 对 象 、 控 制 器 以 及 显示 界面 的 


代码 如 下 : 


from traitsui.api import Controller 


View1.kind =“nonmodal” 

zhang = Employee(name="Zhang") 
< = Controller(zhang) 

c.edit_ traits(view=view1) 


在 创建 Controller 控制 器 时 把 模型 对 象 传递 给 它 ， 就 可 以 通过 cmodel 访问 此 模型 对 象 。 而 


的 属性 编辑 窗口 。 


来 快速 查看 其 内 容 : 
c.get() 


_repr_html_': 


'_repr_jpeg_': 


_repr_json_': 


_repr_latex_ 
_repr_pdf_': 
_repr_png_': 
pops 


调用 Controller 对 象 的 edit_traits0 不 会 显示 控制 嚣 本身 的 Trait 属 性 编辑 窗口 , 而 是 显示 模型 对 象 


由 于 无 论 是 控制 器 类 、 视 图 类 还 是 模型 类 ， 最 终 都 从 HasTraits 类 继承 ， 因 此 可 以 调用 get0 


{'_ipython_display_': None, 


None, 


'_repr_javascript_': None, 


None, 
None, 
: None, 
None, 
None, 
None, 


"info': <traitsui.ui info.UIInfo at 6x5614816>， 
"model': <_main__.Employee at @x55b71e@>} 


c.info.get() 


{'initialized': 


c.info.ui.get() 


True， 'ui': <traitsui.ui.UI at 6x55b7576>} 


{'_active_group': 6， 


”checked': [] 
'_context': {" 


2 


controller': <traitsui.handler.Controller at 6x5665876>， 


'handler': <traitsui.handler.Controller at 6x5665876>， 
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cinfo 是 一 个 UIInfo 对 象 ， 而 UlInfo 对 象 中 最 重要 的 内 容 就 是 UI 对 象 cinfoui。 在 UI 对 象 
中 保存 了 用 户 界面 中 的 各 种 信息 。 对 UI 对 象 的 详细 介绍 已 超出 了 本 书 的 范围 ， 请 感 兴趣 的 读 
者 自行 查看 源 代 码 。 下 面 简要 地 查看 UI 对 象 的 几 个 属性 : 


ui = c.info.ui 

ui.context 

{'controller': <traitsui.handler.Controller at 6x56143f6>， 
"handler': <traitsui.handler.Controller at 6x366b896>， 
"object': <_main__.Employee at 6x5b58636>} 


ui.control # ui 对 象 所 表示 的 实际 界面 控件 
<traitsui.qt4.ui_base. StickyDialog at 6x5658786> 


Ui.view 
( Group( 
Item( 'department' 
object = "object '， 
label = U'"\u96e8\u95e8 '， 


ui._editors 
[<traitsui.qt4.text_editor.SimpleEditor at 6x5abe486>， 
<traitsui.qt4.text_editor.SimpleEditor at 6x5b66516>， 


7.4.3 ”响应 Trait 属性 的 事件 


前 面 介绍 过 ， 从 HasTraits 继承 的 模型 类 中 ， 可 以 通过 定义 _taitname_changed0 来 响应 
traitname 属性 值 改变 的 事件 。 这 是 在 模型 类 中 响应 事件 ， 如 果 要 在 控制 器 类 中 响应 ， 可 以 通过 
定义 setattr0 来 响应 模型 对 象 的 Trait 属性 的 改变 。 

如 果 希 望 只 响应 模型 对 象 中 某 个 特定 属性 的 事件 , 可 以 在 控制 器 类 中 定义 如 下 格式 的 事件 
响应 方法 : 


extended traitname_changed(self, info) 


其 中 的 extended 是 视图 所 产生 的 UI 对 象 的 context 属性 中 与 模型 对 象 相对 应 的 键 ， 通 常 为 
object 。 

这 样 的 事件 响应 方法 在 界面 窗口 初始 化 时 ， 以 及 对 应 的 属性 改变 时 都 会 被 调用 。 为 了 区 分 
二 者 ， 可 以 使 用 info 参数 的 initialized 属性 来 判断 。 下 面 是 一 个 例子 : 
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from traits.api import HasTraits, Bool 
from traitsui.api import View, Handler 


class MyHandler(Handler): 
def setattr(self, info, object, name, value): © 
Handler.setattr(self, info, object, name, value) 
info.object.updated = True @ 
print "setattr", name 


def object updated_changed(self, info): © 
print "updated changed", "initialized=%s" % info.initialized 
if info.initialized: 
info.ui.title += "*" 


class TestClass(HasTraits): 


bl = Bool 
b2 = Bool 
b3 = Bool 


updated = Bool(False) 


viewl = View('b1', 'b2', 'b3', 
handler=MyHandler()， 
title = "Test", 
buttons = ['OK', "Cancel']) 


tc = TestClass() 
tc.configure_traits(view=view1) 
setattr b2 

updated changed initialized=False 


@MyHandler 类 中 定义 了 setattr0 方 法 ， 在 修改 了 模型 对 象 的 任何 一 个 Trait 属性 之 后 ， 它 都 
将 被 调用 。@ 在 setattr0 中 修改 模型 对 象 的 updated 属性 为 True。 

目 当 模型 对 象 的 updated 属性 被 修改 时 , 它 在 控制 器 对 象 中 所 对 应 的 object_updated_changedO 
将 被 调用 。 当 用 户 通过 界面 上 的 单 选 框 或 者 通过 程序 修改 模型 对 象 的 属性 时 ， 将 调用 该 方法 ， 
在 窗口 的 标题 栏 中 添加 一 个 “*”。 


7.5 属性 编辑 器 


与 本 节 内 容 对 应 的 Notebook 为 : 07-traits/traits-500-editors.ipynb。 


器 ， 将 使 


每 个 Trait 类 型 都 有 一 种 缺 省 的 界面 编辑 器 (控件 ) 与 之 对 应 ， 如果 在 视图 对 和 象 中 不 指定 编辑 


用 缺 省 的 编辑 器 生成 界面 。 每 种 编辑 器 都 可 以 有 如 下 4 种 样式 : 


e "simple": 缺 省 值 ， 使 用 一 个 比较 简单 的 编辑 器 ， 尽 量 少 占用 界面 空间 。 
e "custom": 使 用 较 复杂 的 编辑 器 ， 尽 量 呈现 更 多 的 内 容 。 

e "text": 使 用 一 个 文本 编辑 器 。 

e "readonly": 使 用 只 读 控件 显示 。 


附 盘 的 codes 目录 下 的 演示 程序 ， 运 行 界面 如 图 7-11 所 示 。 


DVD 


3 

》 力 Dynamic Forms 

» 园 Extras 
Sandard Editors 

» File Dialog 

”》 晶 popup versions 
BooleanEditor de... 
ButtonEditor demo 
CSVListEditor demo 
ChecklistEditor d... 
CheckListEditor si... 
CodeEditor demo 
ColorEditor demo 
图 compoundEditor ... 
DirectoryEditor d... 


EnumEditor demo 


7.5.1 ”编辑 器 演示 程序 


分 是 


@ traitsuidemo.demo: TraitsUI 官方 提供 的 演示 程序 。 


Applications ~ 


由 于 TraitsUI 的 编辑 器 种 类 繁多 ， 本 书 不 能 一 一 详细 介绍 ， 请 感 兴 趣 的 读者 运行 位 于 本 书 
Description | Source | Demo | Log 
ee 1” 6 2 
一 
©1 ©3 9 5 
oan © . 2 
© @c OE 
DB ©o OF 
Text 2 
Readonly 2 
7-11 TraitsUI 演 示 程 序 的 运行 界面 
下 面 以 几 个 实例 简单 地 介绍 如 何 使 用 TraitsUI 提 供 的 编辑 器 。 
本 节 介 绍 一 个 能 显示 各 种 编辑 器 效果 的 演示 程序 , 图 7-12 是 它 的 界面 截图 。 界面 的 左 半 部 


@ scpy2.traits.traitsui_editors: 演示 TraitsUI 提 供 的 各 种 编辑 器 的 用 法 。 


DVD 


用 来 创建 各 种 Trait 属性 的 源 程序 列表 ， 对 于 选中 的 某 个 Trait 属性 ， 在 界面 的 右 半 部 分 使 
有 4 种 样式 创建 属性 编辑 器 。 
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Array(dtype="int32", shape=(3,3)) 

Bool(True) 

Button("Click me7) 
List(editor=CheckListEditor(values=demo.list)) 
Code("print "hello world"™) 

Color('red") 

RGBColor("red") 

Trait(‘demo._list) 

Directory(os.getcwd0) 

Enum(‘demo list) 

File0 

Font0 

HTMLC<b><font color="red" size="40">hello wor 
List(Str, demo _list) 

Rangel1, 10, 5) 


List(editor=SetEditor(values=demo.list}) 
4 Tm 


图 7-12 演示 TraitsUI 提 供 的 各 种 编辑 器 


在 下 面 的 EditorDemoltem 类 的 视图 定义 中 ,使 用 4 种 样式 为 iem 属性 定义 编辑 器 。 请 注意 
在 EditorDemoItem 类 的 定义 中 并 没有 item 属性 , 但 是 由 于 视图 中 使 用 属性 名 字符 串 定义 编辑 器 ， 
此 只 有 在 真正 使 用 视图 创建 界面 时 , 才 会 访问 item 属性 , 这 时 已 经 通过 add_trait0 为 其 添加 了 
item 属性 , OItem 对 象 的 width 属性 可 以 指定 编辑 器 的 宽度 , 以 像素 点 为 单位 的 长 度 用 整数 表示 ， 
负数 表示 强制 设置 其 宽度 。width 属性 还 有 多 种 设置 宽度 的 用 法 ， 请 读者 查看 Item 类 的 源 代码 
中 的 注释 。@ 使 用 下 划 线 字符 串 在 界面 中 创建 分 隔 线 。 


class EditorDemoItem(HasTraits): 
code = Code() 
view = View( 
Group( 
Item("item", style="simple", label="simple", width=-360), © 
pr 
Item("item", style="custom", label="custom"), 


Item("item", style="text", label="text"), 
BE 
Ttem("item", style="readonly", label="readonly"), 
)， 
) 


在 表示 主 界面 的 EditorDemo 类 中 ，codes 属性 保存 一 组 用 来 创建 各 种 Trait 属性 的 字符 串 ， 
selected_item 属性 是 EditorDemoltem 的 对 象 .在 EditorDemo 类 的 视图 定义 中 , 使 用 HSplit 将 codes 
和 selected_items 所 对 应 的 编辑 器 水 平 隔 开 。@ 用 editor 参数 设置 codes 属性 的 编辑 器 为 
ListSttEditor， 它 是 一 个 显示 一 组 字符 串 的 列表 选择 框 控件 。 其 editable 属性 为 False， 表 示 列 表 
选择 框 中 的 字符 串 都 是 只 读 的 。selected 属性 是 保存 被 选中 字符 串 的 Trait 属性 名 , 在 EditorDemo 
类 中 用 selected_code 属性 保存 列表 选择 框 中 被 选中 的 字符 串 。 可 以 通过 editor 参数 设置 Iem 对 


象 的 编辑 器 ， 这 样 界 面 中 将 使 用 指定 的 编辑 器 显示 Trait 属性 。 

@ 当 用 户 通过 列表 选择 框 选中 了 某 个 字符 串 时 ，selected_code 属性 将 发 生变 化 ， 因 此 
_selected_code_changed0 会 被 调用 ,在 该 方法 中 创建 一 个 EditorDemoltem 对 象 ,并 调用 其 add_trait0 
方法 ， 动 态 地 为 其 创建 一 个 名 为 item 的 Trait 属性 ， 其 类 型 则 通过 eval0 对 selected_code 字符 串 
进行 求 值 获得 。 


HH 


class EditorDemo(HasTraits): 
codes = List(Str) 
selected item = Instance(EditorDemoItem) 
selected code = Str 
view = View( 
HSplit( 
Item("codes", style="custom", show_ label=False, © 
editor=ListStrEditor(editable=False, selected="selected code")), 
Item("selected item", style="custom", show_label=False), 
)， 
resizable=True, 
width = 866， 
height = 466， 
title=u" 各 种 编辑 器 演示 " 
) 


def _selected code_changed(self): 
item = EditorDemoItem(code=self.selected_code) 
item.add trait("item", eval(self.selected code)) ©@ 
self.selected item = item 


最 后 是 定义 各 种 Trait 类 型 的 程序 。 可 以 在 定义 Trait 类 型 时 , 通过 editor 参数 设置 对 应 的 编 
辑 器 ， 这 样 就 不 需要 在 视图 的 Iem 对 象 中 定义 了 。 请 读者 自行 研究 每 个 Trait 类 型 的 定义 以 及 
它们 所 创建 的 界面 控件 ， 这 里 就 不 再 进行 详细 说 明了 。 


employee = Employee() 

demo_list = [u" 低 通 "，u" 高 通 "，u" 带 通 "，u" 带 阻 "] 
trait_defines =""" 

Array(dtype="int32", shape=(3,3)) 

Bool(True) 

Button("Click me") 
List(editor=CheckListEditor(values=demo_list)) 
Code("print “hello world'") 

Color("red") 

RGBColor("red") 

Trait(*demo_list) 
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7.5.2 


直 


独 为 


程序 的 不 同 


式 


下 面 


方 的 信 


436 ， 


随 着 程序 天 
j 对 应 的 模型 类 也 会 变 得 复杂 起 来 。 为 了 便于 代码 的 理解 
及 其 对 应 


Directory(os.getcwd()) 
Enum(*demo_list) 
File() 

Font() 


HTML('<b><font color="red" size="40">hello world</font></b>') 


List(Str, demo list) 
Range(1, 10, 5) 


List(editor=SetEditor(values=demo_list)) 
List(demo list, editor=ListStrEditor()) 


Str("hello") 
Password("hello") 
Str("Hello", editor=TitleEditor()) 


Tuple(Color("red"), Range(1,4), Str("hello")) 


Instance(EditorDemoItem, employee) 


Instance(EditorDemoItem, employee, editor=ValueEditor()) 
Instance(time, time(), editor=TimeEditor()) 


demo = EditorDemo() 
demo.codes = [s.split("#")[8].strip() for s in trait defines.split("\n") if s.strip()!=""] 
demo.configure traits() 


对 象 编辑 器 


的 界面 视图 对 象 进行 重 构 。 将 程序 中 各 


其 


地 方 重复 使 用 ， 从 而 起 到 功能 分 离 、 


发 的 进行 ， 界面 中 的 控件 数目 会 逐渐 增多 , 功 


E 复 使 用 、 


代码 重 有 


合 这 和 
介绍 的 程序 创建 如 图 7-13 所 示 的 界面 ， 


适 


下 


息 栏 会 


动 更 新 。 由 于 程序 较 长 ， 


根据 下 拉 选 择 框 创建 不 同 


组件 开发 方式 ， 下 面 让 我 们 通过 


下 面 将 它 分 为 几 
的 编辑 界面 


用 户 可 b 


和 人 


能 会 越 来 越 复杂 ， 这 意味 着 与 界 
管理 以 及 重用 ， 我 们 需要 对 模型 类 


、 昌 
相对 独立 的 部 分 作为 组 件 分 离 出 来 ， 


网 


设计 模型 类 和 视图 对 象 ， 最 终 的 应 用 程序 由 一 系列 这 样 的 组 件 构成 。 这 些 组 件 可 以 在 


等 多 方面 的 作用 。TraitsUI 的 MVC 模 


: 例 深入 理解 MVC 模式 所 带 来 的 便利 。 


通过 上 方 的 下 拉 选 择 框 选 择 一 种 形状 ， 


i 的 控件 会 自动 根据 所 选 的 形状 发 生变 化 。 当 通过 这 些 控 件 输入 形状 数据 时 ， 界 面 下 


L 个 部 分 进行 分 析 。 


edge length: 1.414214, 1.000000, 1.000000 


图 7-13 组 件 演示 ， 根 据 下 拉 选 择 框 创建 不 同 的 编辑 界面 


A scpy2.traits.traitsui_component: TraitsUI 的 组 件 演示 程序 。 


class Point(HasTraits): 
x = Int 
y= Int 
View = View(HGroup(Item("x"), Item("y"))) 


上 面 的 程序 定义 了 用 于 保存 平面 上 点 的 坐标 的 Point 类。 我 们 还 为 它 指 定 了 一 个 视图 对 象 ， 
视图 中 X 和 立轴 的 坐标 值 输入 框 是 横向 排列 的 运行 Point0.configure_traits0 即 可 看 到 Point 对 象 
所 创建 的 界面 效果 。 

我 们 可 以 将 Point 类 当 作 组 件 使 用 ， 将 它 撕 入 更 复杂 的 界面 中 。 在 下 面 的 程序 中 定义 了 一 
个 基 类 Shape 及 其 两 个 派生 类 Triangle 和 Circle, 使 用 Point 类 定义 所 有 表示 二 维 坐标 点 的 属性 ; 


class Shape(HasTraits): 
info = Str © 


def _ init_ (self, **traits): 
super(Shape, self)._ init_(**traits) 
self.set_info() @ 


class Triangle(Shape): 
a = Instance(Point, ()) © 
b = Instance(Point, ()) 
c = Instance(Point, ()) 


View = View( 
VGroup( 
Item("a", style="custom"), © 
Item("b", style="custom"), 
Item("c", style="custom"), 


) 


@on_trait_change("a.[x,y],b.[x,y],c.[x,y]") 
def set_info(self): 
ab,c = self.a, self.b, self.c 
11 = ((a.x-b.x)**2+(a.y-b.y)**2)**0.5 
12 = ((cC.x-b.x)**2+(C.y-b.y)**2)**0.5 
13 = ((a.X-C.X)**2+(a.y-C.Yy)**2)**0.5 
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self.info = "edge length: %f, %f, %f" % (11,12,13) 


class Circle(Shape): 
center = Instance(Point，()) 
r= Int 


view = View( 
VGroup( 


Item("center", style="custom"), 


Item("r"), 
) 
@on_trait_change("r") 


def set_info(self): 
from math import pi 


self.info = "area:%f" % (pi*self.r**2) 


@ 在 Shape 类 中 定义 info 属性，@ 在 初始 化 方法 中 调用 派生 类 的 set_info0 以 修改 info 属 性 。 


人 @ 在 Triangle 类 中 使 用 Instance(Point, 


0) 定 义 了 表示 三 角形 三 个 


在 Circle 类 中 使 用 同样 的 方式 定义 了 表示 圆心 坐标 的 center 属性 ， 
Instance 的 第 二 个 参数 指定 创建 缺 省 对 象 时 所 用 的 参数 ， 当 没有 第 
的 缺 省 值 为 None。 这 里 用 一 个 空 元 组 表示 与 之 对 应 的 属性 的 缺 省 


即 缺 省 为 PointO 创 建 的 Point 对 象 


@ 如 果 Trait 属性 是 Instance 类 型 ， 并 且 它 在 视图 中 对 应 的 编 轴 


对 象 的 视图 将 直接 嵌入 当前 的 视图 中 。 因 此 在 Triangle 和 Circle 对 


Point 对 象 的 编辑 器 。 在 IPython 中 运行 下 


Triangle().configure_traits() 
Circle().configure traits() 


页 点 坐标 的 属性 : ab 和 c。 
这 些 属性 都 是 Point 对 象 。 
-个 参数 时 , 它 所 定义 的 属性 
直 是 通过 调用 Point0 得 到 的 ， 


i 


导 器 为 "custom'" 样 式 ， 则 属性 
象 的 编辑 界面 中 将 嵌入 多 个 


面 的 程序 可 以 看 到 所 创建 


的 界面 效果 : 


接 下 来 ， 使 用 上 面 的 形状 类 制作 最 终 的 形状 选择 类 ShapeSelector: 


class ShapeSelector(HasTraits) : 


select = Enum(*[cls._name__ for cls in Shape._subclasses_()]) © 


shape = Instance(Shape) ©@ 


View = View( 
VGroup( 
Item("select"), 


Item("shape", style="custom"), © 


Item("object. shape.info" 


,Style="custom"), © 


show_labels = False 
)， 
width = 356，height = 366，resizable = True 
) 


def _ init_(self, **traits): 
super(ShapeSelector, self). init (**traits) 
self._select_changed() 


def _select changed(self): © 
klass = [c for c in Shape._ subclasses () if c._ name == self.select][6] 
self.shape = klass() 


@ 下 拉 选 择 框 所 对 应 的 select 属性 为 枚 举 类 型 ， 为 了 让 程序 显得 更 自动 化 一 些 ， 这 里 不 直 
接 指定 枚 举 类 型 的 候选 值 ， 而 是 通过 Shape 的 派生 类 名 创建 候选 值 列表 。 这 样 当 添加 其 他 的 
Shape 派生 类 时 ， 不 需要 修改 这 段 代 码 。 
@shape 属性 的 类 型 是 Shape， 由 于 不 需要 创建 缺 省 的 Shape 对 象 ， 因 此 不 用 指定 Instance 
的 第 二 个 参数 。@ 当 select 属性 发 生变 化 时 ， 在 事件 处 理 方法 _select_changed0 中 创建 select 属性 
所 对 应 的 类 的 实例 ， 并 赋值 给 shape 属性 。@shape 属性 对 应 的 编辑 器 是 "custom" 样 式 ， 因 此 它 
的 编辑 界面 将 作为 组 件 嵌 入 ShapeSelector 的 界面 中 。 并 且 它 能 根据 当前 的 shape 属性 值 ， 动 态 
更 新 界面 上 的 编辑 器 。 也 就 是 说 ， 当 shape 属性 是 Triangle 对 象 时 将 使 用 Triangle 类 的 视图 创建 
编辑 器 ， 而 当 shape 属性 是 Circle 对 象 时 将 使 用 Circle 类 的 视图 创建 编辑 器 。 
@ 通 过 object.shape.info 可 以 为 shape 属性 的 info 属性 在 界面 中 创建 编辑 器 。 当 为 革 个 Trait 
属性 的 属性 创建 编辑 器 时 ， 注 意 需要 在 属性 名 之 前 添加 “objecL”。 

读者 也 许 会 认为 这 种 为 属性 的 属性 创建 编辑 器 的 做 法 有 些 混乱 , 一 个 比较 简单 的 解决 方法 
就 是 从 ShapeSelector 的 视图 中 删除 objectshape:info 的 fem 对 象 , 并 分 别 给 给 Triangle 和 Circle 的 视 
图 添加 显示 info 属性 的 编辑 器 :Item("info", style="custom")。 这 种 做 法 的 缺点 是 需要 给 每 个 从 
Shape 派生 的 类 的 视图 添加 info 属性 的 编辑 器 ， 而 当 我 们 不 想 显示 info 属性 时 ， 代 码 的 修改 量 
也 会 随 着 Shape 的 派生 类 的 增加 而 增加 。 

还 有 一 种 使 用 多 个 视图 对 象 的 方法 , 它 充分 体现 了 MYVC 模 式 将 模型 和 视图 完全 分 离 的 优点 。 


仿 scpy2.traits.traitsui_component_multi_view: 使 用 多 个 视图 显示 组 件 。 


于 程序 的 改动 不 大 ， 下 面具 介绍 它 和 traitsui_componentpy 的 不 同 之 处 : 


class Shape(HasTraits) : 
info = Str 
View info = View(Item("info", style="custom", show label=False)) 
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def _ init_ (self, **traits): 


super(Shape, self)._ init (**traits) 
self.set_info() 


首先 为 Shape 类 添加 一 个 view_info 视图 专门 用 于 显示 其 info 属性 。 这 样 Shape 的 派生 类 


Triangle 和 Circle 都 具有 两 个 视图 : view 和 view_info。 如 果 模 型 类 有 多 个 视图 ， 将 其 嵌入 其 


图 中 时 需要 指定 使 用 哪个 视图 创建 编辑 器 。 因 此 ShapeSelector 类 的 视图 需要 做 如 下 修改 : 


View = View( 


VGroup( 
Item("select", show label=False), 
Vsplit( © 
Item("shape", style="custom", editor=InstanceEditor(view="view")), 


Item("shape", style="custom", editor=InstanceEditor(view="view info")), 


) 


show_labels = False 
) 


)， 
width = 350, height = 366，resizable = True 


他 视 


@ 为 了 和 前 面 的 例子 有 所 区 别 ， 这 里 用 一 个 垂直 分 隔 容器 将 形状 数据 输入 界面 和 显示 形状 
言 恩 的 控件 分 隔 开 。@shape 属性 的 编辑 器 样式 仍然 为 "custom"， 但 是 为 了 指定 编辑 嚣 所 使 用 的 


视图 ， 需 要 通过 editor 参数 传递 一 个 InstanceEditor 对 象 ， 而 通过 InstanceEditor 对 象 


可 以 指定 创建 界面 时 所 使 用 的 视图 名 。 实 际 上 ，Instance 类 型 的 Trait 属性 缺 省 就 是 使 用 


InstanceEditor 作为 "custom" 样 式 的 编辑 器 ， 因 此 前 面 的 程序 中 都 没有 通过 editor 参数 指定 。 


要 修改 InstanceEditor 对 象 的 一 些 缺 省 值 时 ， 就 需要 手工 创建 它 了 。 
下 面 总 结 一 下 本 节 的 内 容 : 

。 通过 将 Instance 类 型 的 Trait 属 性 的 编辑 器 样式 指定 为 "custom"， 可 以 实现 界 1 

套 ， 即 组 件 功 能 。 


4 view 参数 


当 需 


鲁 的 层 层 民 


。 当 模 型 类 有 多 个 视图 对 象 时 ， 通 过 InstanceEditor 的 view 参数 可 以 选择 其 中 的 某 个 视图 


来 创建 编辑 此 模型 对 象 的 控件 。 


TraitsUI 的 组 件 并 不 局 限于 界面 上 的 某 一 块 区 域 ， 我 们 可 以 在 界面 中 的 不 同位 置 用 不 同 的 
视图 , 为 同一 个 模型 对 象 创建 多 个 不 同 的 编辑 器 , 因此 使 用 TraitsUI 创建 的 界面 是 非常 灵活 的 。 


7.5.3 自 定义 编辑 器 


Enthought 的 官方 绘图 库 采 用 的 是 Chaco, 不 过 如 果 读 者 对 matplotlib 更 为 熟悉 , 也 可 以 在 界 
面 中 使 用 matplotlib 的 绘图 控件 。 为 了 实现 这 个 目的 ， 需 要 自己 编写 一 个 Trait 编辑 器 ， 用 它 包 


装 matplotlib 的 绘图 控件 。 


于 TraitsUI 库 和 matplotib 都 支持 wx 和 Qt 界面 库 ， 因 此 下 面 的 程序 首先 根据 
ETSConfig.toolkit 选择 载 入 matplotlib 中 对 应 的 绘图 控件 FigureCanvas 和 工具 条 Toolbar, 并 从 traits 
对 应 的 后 台 库 中 载 入 所 有 编辑 器 的 父 类 Editor: 


import matplotlib 

from traits.api import Bool 

from traitsui.api import toolkit 

from traitsui.basic editor factory import BasicEditorFactory 
from traits.etsconfig.api import ETSConfig 


if ETSConfig.toolkit == "Wx": 
# matplotlib 采用 WXAgg 为 后 台 ， 这 样 才能 将 绘图 控件 嵌入 以 wx 为 后 台 界 面 库 的 traitsUI 窗口 中 
import wx 
matplotlib.use("WXAgg") 
from matplotlib.backends .backend_wxagg import FigureCanvasWxAgg as FigureCanvas 
from matplotlib.backends .backend_wx import NavigationToolbar2Wx as Toolbar 
from traitsui.wx.editor import Editor 


elif ETSConfig.toolkit == "qt4": 


matplotlib.use("Qt4Agg") 

from matplotlib.backends .backend_qt4agg import FigureCanvasQTAgg as FigureCanvas 
from matplotlib.backends.backend_qt4agg import NavigationToolbar2QT as Toolbar 
from traitsui.qt4.editor import Editor 

from pyface.qt import QtGui 


对 于 每 个 界面 库 都 需要 编写 从 Editor 类 继承 的 包装 matplotlib 图 表 的 编辑 器 类 ， 下 面 是 
traitsui.qt4.editor.Editor 继承 的 编辑 器 类 : 


class _QtFigureEditor(Editor): 
scrollable = True 


def init(self, parent): © 
self.control = self._create_canvas(parent) 


self.set_tooltip() 


def update editor(self): 
pass 


def _create canvas(self, parent): 
panel = QtGui.Qwidget() 


def mousemoved(event ) : 
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if event.xdata is not None: 
X，y = event.xdata，event.ydata 
name = "Axes" 
else: 
x, y = event.x, event.y 
name = "Figure" 


panel.info.setText("%s: %g, %g" % (name, x, y)) 


panel .mousemoved = mousemoved 
Vvbox = QtGui.QVBoxLayout() 
panel. setLayout (vbox) 


mpl_control = FigureCanvas(self.value) @ 
vbox.addWidget(mpl_control) 
if hasattr(self.value, "canvas_events"): 
for event_name, callback in self.value.canvas_ events: 
mpl_control.mpl_connect(event_name, callback) 


mpl_control.mpl_connect("motion_notify_event", mousemoved) 


if self.factory.toolbar: © 
toolbar = Toolbar(mpl_control, panel) 
vbox.addWidget(toolbar) 


panel.info = QtGui.QLabel(panel) 
vbox.addwidget(panel.info) 
return panel 


@ 在 初始 化 编辑 器 控件 时 会 调用 init0 方 法 , 在 该 方法 中 调用 _create_canvas0 以 创建 控件 。 @ 
该 编辑 器 对 象 的 value 属性 保存 对 应 的 模型 对 象 ， 即 matplotlib 中 的 Figure 对 象 。 在 创建 编辑 器 
时 ， 可 以 根据 模型 对 象 属性 执行 初始 化 工作 ， 这 里 判断 模型 对 象 是 否 有 canvas_events 属性 。 如 
果 有 ， 就 对 其 中 定义 的 事件 进行 绑 定 。 

目 在 创建 编辑 器 时 传递 的 参数 可 以 通过 factory 属性 获得 , 这 里 根据 其 中 的 toolbar 属性 判断 
是 否 创建 工具 栏 。 

最 后 还 需要 编写 一 个 编辑 器 工厂 类 MPLFigureEditor， 它 从 BasicEditorFactory 类 继承 : 

class MPLFigureEditor(BasicEditorFactory): 


相当 于 traits.ui 中 的 EditorFactory， 它 返回 真正 创建 控件 的 类 


if ETSConfig.toolkit == "Wx": 


klass = _WxFigureEditor 
elif ETSConfig.toolkit == "qt4": 
klass = QtFigureEditor © 


toolbar = Bool(True) ©@ 


@ 类 属性 klass 为 编辑 器 类 ,这 里 根据 当前 的 界面 库 选 择 编辑 器 类 。@ 最 后 定义 工厂 类 中 的 
Traits 属性 toolbar， 它 的 缺 省 值 为 True。 
下 面 是 使 用 MPLFigureEditor 将 matplotlib 的 图 表 嵌 入 TraitUI 界面 中 的 例子 : 


import numpy as np 
from matplotlib.figure import Figure 
from scpy2.traits import MPLFigureEditor 


class SinWave(HasTraits): 
figure = Instance(Figure, ()) 
View = View( 
Item("figure", editor=MPLFigureEditor(toolbar=True), show_label=False), 
width = 466， 
height = 366， 
resizable = True) 


def _ init (self, **kw): 
super(SinWave, self)._ init__(**kw) 
self.figure.canvas_events = [ 

("button_press_event"，self.figure_button_pressed) 

1 
axes = self.figure.add_subplot(111) 
t = np.linspace(0, 2*np.pi, 200) 
axes.plot(np.sin(t)) 


def figure_button_pressed(self, event): 


print event.xdata, event.ydata 


model = SinWave() 
model.edit traits() 
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7.6 函数 曲线 绘制 工具 


与 本 节 内 容 对 应 的 Notebook 为 : 07-traittraits-600-exampleipynb。 


作为 本 章 的 最 后 一 节 ， 让 我 们 用 学 到 的 内 容 编写 一 个 绘制 函数 曲线 的 小 程序 ， 界 


看 如 图 


7-14 所 示 。 界 面 上 方 是 显示 曲线 的 图 表 ， 左 下 方 为 代码 编辑 器 ， 右 下 方 为 显示 数据 点 的 表格 。 


个 @@ 团 可 加 园 台 


Figure: 226, 248 


9 plsq = optinize.leastsa(_residuals, pe, args-(y1 9 ~ 
28 


2 def leastsq_fit(x): 
22 return _func(x，plsq[e]) 


23 
‘24 def real_function(x): 
25 


26 
27 parameters = dict(lw=3, alpha=9,8) 

28 leastsq_fit.plot_parameters = parameters 
29 real_function.plot_parameters = parameters 


DVD 


本 函数 曲线 绘制 工具 有 如 下 功能 : 
加 点 或 者 修改 点 的 坐标 。 


序 中 使 用 points 访问 。 


X 
0 
0.0634665 
0.126933 
0.1904 
0.253866 
0.317333 
0.380799 


图 7-14 函数 曲线 绘制 工具 的 界面 


会 scpy2.traits.traitsui_function_plotter: 采用 TraitsUI 编 写 的 函数 曲线 绘制 工具 。 


。 在 图 表 上 单 击 鼠 标 左 键 添 加 点 ， 单 击 鼠 标 右键 删除 最 后 添加 的 点 。 也 可 以 通过 表格 添 


。 在 运行 代码 之 前 ， 将 表格 中 的 点 转换 为 形状 为 QN, 2) 的 二 维 数组 ， 该 数组 可 以 在 用 户 程 


程序 运行 之 后 ， 如 果 运 行 环境 中 有 名 为 points、 形 状 为 (N, 2) 的 二 维 数组 ,将 该 数组 的 内 
容 显示 在 左 侧 的 表格 中 ， 在 图 表 中 这 些 数据 点 使 用 黑色 的 又 点 表示 。 
将 运行 环境 中 所 有 返回 值 为 数组 的 单 参数 函数 显示 为 曲线 ， 如 果 函 数 名 以 下 划 线 开头 ， 
则 忽略 该 函数 。 
如 果 曲 线 函 数 的 plot_parameters 属性 为 字典 ， 该 属性 将 作为 关键 字 参 数 传递 给 plot0 
如 果 图 表 的 X 轴 范围 发 生变 化 ， 自 动 调 用 曲线 对 应 的 函数 并 更 新 曲线 。 


图 7-14 所 示 的 界面 由 三 个 控件 组 成 。@figure 属性 是 一 个 matplotlib 的 Figure 对象 ， 它 对 应 
的 编辑 器 为 上 节 介 绍 的 MPLFigureEditor。@code 属性 为 Code 类 型 ， 它 从 St 继承， 其 缺 省 的 编 
辑 器 为 带 高 亮 显示 的 代码 编辑 器 。@points 属性 是 一 个 Point 对 象 的 列表 ， 其 对 应 的 编辑 器 为 
point_ table_editor。 


企 


Code 对 应 的 编辑 器 代码 存在 BUG， 请 读者 将 patches\pygments_highlighterpy 复制 到 
site-packages\pyfaceWi\qt4\code_editor 下 以 履 盖 原 有 的 文件 。 


class FunctionPlotter(HasTraits) : 


下 面 是 Point 类 和 point_ table_editor 的 定义 。TableEditor 为 表格 数据 的 编辑 器 类 ， 表 格 的 每 


figure = Instance(Figure，()) © 

code = Code() ©@ 

points = List(Instance(Point)，[]) © 
draw_button = Button("Plot") 


View = View( 


VSplit( 
Item("figure", editor=MPLFigureEditor(toolbar=True), show_label=False), 
HSplit( 
VGroup( 
Item("code", style="custom"), 
HGroup( 
Item("draw_button", show label=False), 
)， 
show_labels=False 
)， 
Item("points"，editor=point_table_editor，show_label=False) 
) 
)， 


width=866，height=666，title="Function Plotter", resizable=True 
) 
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一 列 与 一 个 ObjectColumn 对 象 对 应 。row_factory 为 创建 新 行 时 调用 的 对 象 。 


class Point(HasTraits): 
x = Float() 
y = Float() 


point_ table editor = TableEditor( 

columns=[ObjectColumn(name="x', width=160, format="%g"), 
ObjectColumn(name="'y', width=160, format="%g")], 

editable=True, 
sortable=False, 
sort_model=False, 
auto_size=False, 
row_factory=Point 


下 面 是 FunctionPlotter 类 的 初始 化 函数 。@ 在 调用 _init_0 时 ，Figure 对 象 已 经 创建 ， 但 是 
对 应 的 后 台 界 面 库 中 的 绘图 控件 canvas 尚未 创建 ， 因 此 这 里 无 法 使 用 
selffigure.canvas.mpl_connect0 设 置 事 件 响应 函数 。 在 上 节 介 绍 的 MPLFigureEditor 编辑 器 中 ， 在 
创建 绘图 控件 时 会 绑 定 Figure 对 象 的 canvas_events 属性 中 定义 的 事件 。@ 创 建 子 图 对 象 axe 之 
后 ， 调 用 callbacks.connect0 以 绑 定子 图 的 xlim_changed 事件 ， 该 事件 在 子 图 的 X 轴 显示 范围 发 
生变 化 时 触发 。 


def _ init_ (self, **kw): 

super(Functionplotter, self)._ init__(**kw) 

self.figure.canvas events = [ © 
("button_press_event", self.memory_location), 
("button_release_event", self.update_location) 

1 

self.button_press_status = None # 保 存 鼠 标 按键 按 下 时 的 状态 

self.lines = [] # 保 存 所 有 曲线 

self.functions = [] # 保 存 所 有 的 曲线 函数 

self.env = {} # 代 码 的 执行 环境 


self.axe = self.figure.add_subplot(1, 1, 1) 
self.axe.callbacks.connect('xlim changed', self.update data) ©@ 
self.axe.set xlim(8, 1) 

self.axe.set ylim(8, 1) 

self.points_line, = self.axe.plot([]，[],，"kx"，ms=8，zorder=16866) # 数 据点 


在 图 表 中 使 用 鼠标 进行 平移 和 缩放 时 ， 也 会 触发 鼠标 按键 按 下 和 释放 的 响应 函数 。 为 了 区 
分 这 些 操作 与 鼠标 按键 的 单 击 操作 ， 在 memory location0 中 记录 下 鼠标 按键 按 下 时 的 状态 ， 并 


在 update_ location0 中 与 鼠标 释放 时 的 状态 进行 比较 ， 如 果 满 足 : @@ 鼠 标 按键 按 下 的 时 间 少 于 0.5 
秒 ，@ 和 鼠标 的 移动 距离 小 于 4 个 像素 ， 就 认为 是 鼠标 单 击 操作 。 

人 当 和 鼠标 左 键 释放 时 , 创建 一 个 Point 对 象 , 其 x 和 y 属 性 被 设置 为 鼠标 释放 时 在 子 图 中 的 
坐标 ， 并 将 该 对 象 添加 进 points 列表 。@ 若 按 下 右键 ， 则 调用 pointspop0 删 除 列表 中 的 最 后 一 
个 元 素 。 


def memory_location(self, evt): 
if evt.button in (1, 3): 
self.button_press_status = time.clock(), evt.x, evt.y 
else: 
self.button_press_status = None 


def update_ location(self, evt): 
if evt.button in (1, 3) and self.button press_status is not None: 
last_clock, last x, last y = self.button press_status 
if time.clock() - last clock > 6.5: © 
return 
if ((evt.x - last x) ** 2 + (evt.y - last y) ** 2) ** 9.5 > 4: 四 
return 


if evt.button == 1: 
if evt.xdata is not None and evt.ydata is not None: 
point = Point(x=evt.xdata, y=evt.ydata) © 
self.points.append(point) 
elif evt.button == 3: 
if self.points: 
self.points.pop() © 


当 points 列表 本 身 或 者 其 中 的 元 素 发 生 增 减 时 ， 将 调用 _points_changed0， 其 new 参数 为 新 
添加 进 列表 的 元 素 。@ 当 通过 表格 编辑 坐标 点 的 位 置 时 ，Point 对 象 的 x 或 y 属 性 将 发 生变 化 ， 
为 了 捕 提 到 这 些 变 化 并 更 新 图 表 中 的 坐标 点 , 需要 对 新 添加 进 points 列表 的 对 象 进行 事件 绑 定 。 

@ 在 update_points0 中 ， 从 points 属性 创建 二 维 数 组 ， 并 调用 points_line.set_data0 更 新 图 表 中 
的 坐标 点 ， 调 用 @update_figure0 重 新 绘制 图 表 。 由 于 这 一 系列 的 触发 事件 可 能 在 图 表 的 绘图 控 
件 创建 之 前 发 生 , 因此 @ 在 调用 canvas.draw_idle0 重 绘制 图 表 之 前 需要 判断 canvas 是 否 为 None。 


@on_trait_change("points[]") 
def points_changed(self, obj, name, new): 
for point in new: 
point.on trait_ change(self.update points, name="x, y") © 
self.update points() 


def update points(self): @ 
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arr = np.array([(point.x，point.y) for point in self.points]) 
if arr.shape[6] > 6: 
self.points_line.set_data(arr[:，6]，arr[:，1]) 
else: 
self.points_ line.set data([], []) 
self.update figure() 


def update figure(self): © 
if self.figure.canvas is not None: @ 
self.figure.canvas.draw_idle() 


当 Axes 对 象 的 X 轴 显示 范围 发 生变 化 时 , 调用 update_data0 重 新 计算 位 于 显示 范围 之 内 的 
曲线 数据 : 


def update data(self, axe): 
xmin, xmax = axe.get_xlim() 
x = np.linspace(xmin, xmax, 560) 
for line, func in zip(self.lines, self.functions): 
y = func(x) 
line.set_data(x, y) 
self.update figure() 


最 后 ， 当 Plot 按钮 按 下 时 _draw_button_fired0 会 被 调用 ， 在 其 中 调用 plot_lines0 运 行 代码 编 
辑 器 中 的 程序 ， 并 绘制 函数 曲线 。 

人 @ 调 用 axe.get_xlim0 获 得 子 图 的 X 轴 显示 范围 ,并 调用 linspace0 创 建 等 分 此 区 间 的 数组 x。 
@ 创 建 代码 的 运行 环境 env, 它 是 一 个 字典 ,其 points 键 对 应 由 points 列表 转换 而 来 的 二 维 数组 ， 
并 调用 exec 运行 code 中 保存 的 代码 。 

对 一 些 属性 进行 初始 化 操作 之 后 ，@ 对 env 中 的 所 有 键 - 值 对 进行 循环 ， 找 到 其 中 符合 条 件 
的 函数 并 调用 ， 然 后 把 结果 保存 到 results 列表 中 。@ 如 果 曲 线 函 数 有 plot_parameters 属性 ， 则 将 
之 作为 绘图 参数 传递 给 plot0。 

@ 最 后 将 执行 环境 中 的 points 数组 转换 为 Point 对象 的 列表 。 

def _draw_button fired(self): 
self.plot_lines() 


def plot lines(self): 
xmin, xmax = self.axe.get xlim() © 
x = np.linspace(xmin, xmax, 560) 
self.env = {"points": np.array([(point.x, point.y) for point in self.points])} © 
exec self.code in self.env 


results = [] 


for line in self.lines: 
line.remove() 
self.axe.set_color_cycle(None) # 重 置 颜色 循环 
self.functions = [] 
self.lines = [] 
for name, value in self.env.items(): © 
if name.startswith(""): # 忽 略 以 开头 的 名 字 
continue 
if callable(value) : 
二 ny 
y = value(x) 
if y.shape != x.shape: 提 输出 数组 应 该 与 输入 数组 的 形状 一 致 
raise ValueError("the return shape is not the same as x") 
except Exception as ex: 
import traceback 
print "failed when call function {}\n".format(name) 
traceback.print_exc() 
continue 


results.append((name，y)) 
self.functions.append(value) 


for (name, y), function in zip(results, self.functions): 
# 如 果 函 数 有 plot_parameters 属性 , 则 用 其 作为 plot( ) 的 参数 
kw = getattr(function, "plot parameters", {}) @ 
label = kw.get("label", name) 
line, = self.axe.plot(x, y, label=label, **kw) 
self.lines.append(line) 


points = self.env.get("points", None) © 
if points is not None: 
self.points = [Point(x=x, y=y) for x, y in np.asarray(points).tolist()] 


self.axe.legend() 
self.update_figure() 
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VTK 是 一 套 功能 十 分 强大 的 三 维 数据 可 视 化 库 ， 它 使 用 C++ 编写 ， 其 中 包含 了 近 千 个 类 。 
它 在 Python 下 有 标准 的 扩展 库 , 不 过 由 于 其 Python 扩展 库 的 AP[ 和 C++ 的 API 相同 , 不 能 体现 
出 Python 作为 动态 语言 的 优势 ， 因 此 Enthought 公司 开发 了 一 套 名 为 TVTK 的 扩展 库 来 对 VTK 
进行 包装 ， 提 供 了 Python 风格 的 API， 并 支持 Trait 属性 和 NumPy 数组 。 本 章 以 TVTK 的 API 
为 例 介绍 如 何在 Python 中 使 用 VTK 进行 数据 的 三 维 可 视 化。 

由 于 TVTK 库 十 分 庞大 ， 为 了 方便 用 户 查 询 文 档 ，TVTK 库 提供 了 一 个 显示 TVTK 文档 的 
工具 。 可 以 通过 下 面 的 语句 运行 它 : 


from tvtk.tools import tvtk_doc 
tvtk_doc.main() 


A scpy2.tvtk.tvtk_class_doc: 更 方便 的 TVTK 文 档 查 询 工具 。 


TVTK 库 提供 的 工具 并 不 太 好 用 ， 本 书 为 读者 提供 了 一 个 更 方便 的 TVTK 文档 查询 工具 ， 
其 界面 如 图 8-1 所 示 。 


BB ConeSource ^ 
BB contourfiker 1 
局 contourGrid 
ConvexHull2D | 
入 cubesource 
局 cursor2D Superclass: PolyDataAlgorithm 
筷 Cursor3D 
BCurvatures 
一 ~ og pointing in a specified direction. (By default, the cente 
1 EE » 11 origin and che direction is the x-axis.) Depending upon +t 
a™ a esolution of this object, different representations are 
搜索 :Cone 23 resolution=0 a line is created; if resolution=1, a single 
4 created; if resolution=2, two crossed triangles are creat 
Tamernhele Fs 5 resolution > 2, a 3d cone (with resolution number of side 
Cone 16 created. It also is possible to control whether the bottc 
ConeLayoutStrategy EE 17 cone is capped with a (resolution-sided) polygon, and to 
ConeSource | 18 height and radius of the cone. 
GraphLayoutView | 
HierarchicalGraphView 
LightAct 


图 8-1 TVTK 文 档 浏览 器 (使 用 wx 库 时 的 界面 截图 ) 
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第 一 次 运行 此 文档 工具 时 ， 它 将 对 TVTK 库 中 所 有 的 类 进行 扫描 ， 并 将 类 的 继承 关系 和 文 
档 全 部 保存 在 tvtk_classes.cache 中 , 这 个 过 程 可 能 需要 等 待 较 长 的 时 间 。 界面 的 左上 部 分 使 用 一 
个 树 状 控件 显示 TVTK 中 各 个 类 之 间 的 继承 关系 。 在 中 间 的 文本 框 中 输入 搜索 文本 ， 其 下 方 的 
列表 框 中 会 实时 显示 搜索 结果 。 输 入 全 小 写字 母 进行 忽略 大 小 写 的 搜索 ， 而 输入 带 大 写字 母 的 
文本 则 进行 精确 搜索 。 


8.1 VTK 的 流水 线 (Pipeline) 


A 与 本 节 内 容 对 应 的 Notebook 为 : 08-tvtk_mayavi/tvtk_mayavi-200-pipeline.ipynb。 


VTK 是 一 个 十 分 复杂 的 系统 ， 为 了 方便 用 户 使 用 ， 它 使 用 流水 线 技术 将 VTK 中 的 各 个 对 
象 串 联 起 来 。 每 个 对 象 只 需要 实现 相对 简单 的 任务 ， 整 个 流水 线 则 能 够 根据 用 户 的 需求 实现 十 
分 复杂 的 数据 可 视 化 处 理 。 


8.1.1 显示 圆锥 
作为 第 一 例子 ， 让 我 们 首先 看 一 个 显示 圆锥 的 小 程序 ， 它 的 运行 效果 如 图 8-2 所 示 。 


会 当 癌 问 川 于 请 迪 -IAeAEN JT MLAL 


图 8-2 使 用 TVTK 绘制 简单 的 圆锥 


于 在 了 Python Notebook 中 显示 VTK 的 窗口 之 后 将 无 法 关闭 ， 因 此 下 面 使 用 9%96python 魔 
法 命令 在 新 的 Python 进程 中 运行 显示 圆锥 的 程序 : 


452) 


%%python 


#coding=utf-8 
from tvtk.api import tvtk © 


# 创 


建 一 个 圆锥 数据 源 ， 并 且 同 时 设置 其 高 度 、 底 面 半 径 和 底面 圆 的 分 辩 率 (用 36 边 形 近似 ) 


cs = tvtk.ConeSource(height=3.6，radius=1.6，resolution=36) @ 
# 使 用 PolyDataMapper 将 数据 转换 为 图 形 数据 


m = 
# 创 
a = 
# 创 
ren 


ren. 


# 创 


tvtk.PolyDataMapper(input_connection=cs.output_port) © 
建 一 个 Actor 

tvtk.Actor(mapper=m) © 

建 一 个 Renderer， 将 Actor 添加 进去 

= tvtk.Renderer(background=(1, 1, 1)) © 

add_actor(a) 

建 一 个 RenderWindow( 窗 口 )， 将 Renderer 添加 进去 


rw = tvtk.RenderwWindow(size=(366,366)) © 
rw.add_renderer(ren) 


# 创 


rwi 


建 一 个 RenderWindowInteractor( 窗 口 的 交互 工具 ) 
= tvtk.RenderWindowInteractor(render_ window=rw) @ 


# 开启 交互 


rwi. 
rwi. 


@ 首 先 载 入 tvtk 对 象 ， 它 帮助 我 们 创建 TVTK 库 中 的 各 种 对 象 。@ 创 建 了 


initialize() 
start() 


-个 ConeSource 


对 象 ， 它 是 计算 圆锥 形状 的 数据 源 对 象 。 在 TVTK 中 ， 所 有 类 都 从 HasTraits 继承 ， 因 此 可 以 在 


创建 对 象 的 同时 ， 使 用 关键 字 参 数 直接 设置 Trait 属性 的 值 。 在 这 个 例子 中 ,同时 设置 
度 面 半径 和 底面 圆 的 边 数 等 属性 。 


高 度 、j 


了 圆锥 的 


事实 上 ， 我 们 载 入 的 tvtk 并 不 是 一 个 模块 ， 而 是 某 个 类 的 实例 。 之 所 以 如 此 设计 ， 是 因为 


VTK 库 有 近 千 个 类 ， 而 
地 影响 库 的 载 入 速度 。 


我 们 载 入 的 tvtk 虽然 是 某 个 实例 对 象 ， 但 是 用 起 来 就 和 模块 一 样 : 


通过 它 可 以 使 用 所 有 的 TVTK 类 。 
它 不 需要 载 入 近 千 个 TVTK 类 就 能 支持 类 名 的 自动 补 全 。 
只 有 在 真正 使 用 时 ，TVTK 类 才 会 被 载 入 。 


TVTK 对 所 有 这 些 类 都 进行 了 包装 。 如 果 一 次 性 载 入 这 么 多 类 ,会 极 大 


所 有 对 VTK 进行 包装 的 类 全 部 保存 在 tvtk_classes.zip 文件 中 ， 而 tvtk 对象 的 类 则 在 此 压缩 
文件 里 的 tvtk_helper.py 中 定义 。 对 于 TVTK 中 的 每 个 类 ，tvtk 对 象 都 有 一 个 同名 的 


对 应 。 


的 值 : 


属性 与 之 


下 面 查看 ConeSource 对 象 的 所 有 Traits 属性 名 ， 并 显示 height、radius 和 resolution 等 属性 


会 兴 吕 占 川 全 请 六 -IAeAeN TMIAL 
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from tvtk.api import tvtk 

cs = tvtk.ConeSource(height=3.6，radius=1.6，resolution=36) 
m = tvtk.PolyDataMapper(input_connection=cs.output_port) 

a = tvtk.Actor(mapper=m) 

ren = tvtk.Renderer(background=(1, 1, 1)) 

ren.add_actor(a) 


cs.trait_names() 

[ number_of_output_ports ， 
"abort_execute “'， 
“class_name '， 

"executive '， 


cs.height cs.radius cs.resolution 


为 了 将 原始 数据 转换 为 屏幕 上 的 一 幅 图 像 ， 需 要 经 过 许多 处 理 步骤 。 这 些 步骤 由 众多 的 


VTK 对 象 分 步 实现 ， 就 好 像 生产 线 上 加 工 零件 一 样 ， 每 位 工人 都 负责 


-部 分 工作 ， 整 条 生产 线 


就 能 将 原材料 制作 成 产品 。 在 VTK 中 ， 这 种 在 各 个 对 象 之 间 协 调 完 成 工作 的 过 程 被 称 作 流水 


speine). 
原始 数据 被 加 工 成 图 像 要 经 过 两 条 流水 线 : 


e 可 视 化 流水 线 (Visualization Pipeline): 它 的 工作 是 将 原始 数据 加 工 成 图 形 数 据 。 一 般 来 


各 个 部 分 的 温度 ， 或 是 流体 中 各 个 坐标 点 上 的 速度 等 。 


工 成 能 在 二 维 屏 幕 上 显示 的 图 像 。 


说 , 我 们 需要 进行 可 视 化 展示 的 数据 本 身 并 不 是 图 形 数据 , 例如 可 能 是 某 个 零件 内 部 


图 形 流水 线 (Graphics Pipeline): 它 的 工作 是 将 图 形 数据 加 工 为 我 们 所 看 到 的 图 像 。 可 
视 化 流水 线 所 产生 的 图 形 数据 通常 是 三 维 空间 的 数据 ,图 形 流水 线 将 这 些 三 维 数据 加 


人 @ 映 射 器 (Mappen) 是 可 视 化 流水 线 的 终点 、 图 形 流水 线 的 起 点 ， 它 的 各 种 派生 类 能 将 众多 
的 数据 映射 为 图 形 数据 以 供 图 形 流水 线 加 工 。 在 本 例 中 ，ConeSource 对 象 输出 一 个 描述 圆锥 的 
顶点 和 面 的 PolyData 对 象 ， 然 后 PolyData 对 象 通过 PolyDataMapper 映射 器 转换 为 图 形 数据 。 因 


此 在 本 例 中 ， 可 视 化 流水 线 由 ConeSource 和 PolyDataMapper 对 象 组 成 。 


可 视 化 流水 线 中 的 对 象 经 由 input_connection 和 output_port 属性 连接 起 来 。 在 本 例 中 ， 
ConeSource 对 象 产生 一 个 表示 圆锥 的 PolyData 对 象 ， 并 转交 给 PolyDataMapper 对 象 进行 处 理 。 


可 以 通过 output 或 input 属性 查看 在 流水 线 中 实际 传递 的 PolyData 对 象 : 


print type(cs.output), cs.output is m.input 
<class 'tvtk.tvtk_classes.poly_data.PolyData'> True 


然后 图 形 数 据 再 依次 通过 Actor、Renderer 最 终 在 RenderWindow 中 


显示 出 来 ， 这 一 部 分 就 


是 图 形 流水 线 。@Actor 对 象 代表 场景 中 的 一 个 实体 ， 它 的 mapper 属性 是 表示 图 形 数据 的 
PolyDataMapper 对 象 ，Actor 对 象 还 有 许多 属性 可 以 控制 实体 的 位 置 、 方 向 、 大 小 等 。 


print a.mapper is m 

print a.scale # Actor 对 象 的 scale 属性 表示 各 个 轴 的 缩放 比例 
True 

[2 


@Renderer 对 象 表示 三 维 场景 , 它 可 以 包含 多 个 Actor 对 象 , 这 些 Actor 对 象 都 保存 在 actors 
列表 属性 中 。 在 本 例 中 ， 它 只 包含 一 个 显示 圆锥 的 Actor 对 象 : 


ren.actors 
['<tvtk.tvtk_classes.actor.Actor object at 6x6D7C7BD6> ] 


@RenderWindow 对 象 表示 包含 场景 的 窗口 ， 它 可 以 同时 包含 多 个 场景 。 在 本 例 中 ， 它 只 有 
一 个 Renderer 对 象 。 

@RenderWindowInteractor 对 象 为 图 形 窗口 提供 一 些 用 户 交互 功能 , 例如 平移 、 旋 转 和 缩放 。 
这 些 交 互 式 操作 并 不 改变 场景 中 的 各 个 实体 (Actor 对 象 )， 也 不 改变 图 形 数据 的 属性 ， 它 们 只 是 
修改 场景 中 照相 机 (Camera) 的 设置 ， 从 不 同 的 角度 和 距离 观察 场景 中 的 实体 。 


8.1.2 用 ivtk 观察 流水 线 


为 了 方便 对 流水 线 进行 观察 和 操作 ， 本 书 在 scpy2.tvtktvtkhelp 模块 中 提供 了 ivtk_scene0 和 
event_loop0 两 个 函数 。 使 用 它们 可 以 交互 式 地 对 各 种 TVTK 对 象 的 属性 进行 编辑 ， 下 面 是 使 用 
这 两 个 函数 显示 圆锥 的 程序 ， 运 行 画面 如 图 8-3 所 示 。 


WOpenG ene Wd 加 加 回回 回回 息 昌 水 四 回合 
OpenGLPainterDeviceAdapter 
4 WW Renderer 
< 转 Ador 
4 六 PolyDataMapper 
ConeSource 
加 LookupTable 
OpenGLproperty 
4 轩 OpenGLCamera 
Matrix4x4 
Matrix4x4 


>>> print scene.renderer.actors[0]- nper input .points.to_array() 
Cs 00000008e+00 -+00] 


88 +90] 

了 84887736e-61 a :73648179e-61] 

9.39692616e-61 ee 人 
8.66625388e-61 5. - 

+69 ”7.66644438e-61 6.42787635e-81] 
5.42787635e-@1 。 7.6| - 


图 8-3 带 流水 线 浏览 器 和 Python 命令 行 的 iv 比 界面 
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from tvtk.api import tvtk 
from scpy2.tvtk.tvtkhelp import ivtk_scene, event_loop 


cs = tvtk.ConeSource(height=3.6，radius=1.6，resolution=36) 
m = tvtk.PolyDataMapper(input_connection=cs.output_port) 
a = tvtk.Actor(mapper=m) 


window = ivtk_scene([a]) © 
window.scene.isometric_ view() 
event_loop() ©@ 


@ 将 Actor 对 象 列表 传递 给 ivtk_scene0, 创建 并 显示 一 个 包含 所 有 Actor 对 象 的 TVTK Scene 
窗口 。@ 调 用 event_loop0 开 始 界 面 消 息 循环 ， 若 在 Notebook 中 通过 %gui 命令 启动 了 界面 消息 


循环 ， 则 可 以 省 略 该 行 。 下 面 看 看 TVTK Scene 窗口 的 各 个 组 成 部 分 : 
e 场景 : 用 于 显示 可 视 化 的 结果 ， 这 里 只 显示 了 一 个 圆锥 。 


e 场景 工具 条 : 位 于 场景 的 上 方 ， 主 要 提供 了 各 种 视角 、 全 屏 显 示 、 保 存 图 像 等 功能 。 
。 流水 线 浏览 器 : 场景 左边 是 一 个 表示 流水 线 的 树 状 控件 。 从 子 节点 ConeSource 开始 


逐步 向 上 层 直到 根 节点 RenderWindow， 是 显示 圆锥 的 整个 流水 线 。 


e Python 命令 行 : 界面 下 方 提供 了 一 个 Python 命令 行 ， 方 便 用 户 直 接 输 入 命令 来 操作 
各 个 对 象 。 例 如 图 中 显示 了 通过 场景 对 象 sene 获 取 ConeSource 对 象 所 输出 的 PolyData 


对 象 的 points 属性 ， 即 构成 圆锥 图 形 的 各 个 顶点 的 三 维 坐标 。 
流水 线 浏览 器 中 显示 的 各 个 对 象 的 类 都 从 HasTraits 继承 , 因此 它们 可 以 提供 一 个 


以 交互 式 地 修改 其 Trait 属性 。 图 84 是 双击 流水 线 中 的 ConeSource 对 象 之 后 弹出 的 属 
。 通 过 此 界面 可 以 直接 修改 height、radius、resolution 等 属性 ， 并 且 修 改 之 后 场景 中 的 圆锥 会 


根据 最 新 的 属性 值 立即 更 新 显示 。 


Capping: 加 


Anele: 18.4349488229 

Center FO: 00 Ft: 00 F2 00 
Directior FE 10 FE F200 

Heisht 0000 © 冉 © 13000 3000 

Radius: 000 © 下- -一 日 1100 1000 
Resolution 36 


图 84 编辑 ConeSource 对 象 的 属性 的 对 话 框 


用 户 界面 


性 编辑 界 


1. 照相 机 


在 ivtk 的 窗口 左 侧 的 流水 线 浏览 器 中 可 以 找到 场景 中 的 照相 机 对 象 OpenGLCamera， 双 击 


它 会 弹出 如 图 8-5 所 示 的 编辑 照相 机 对 象 属性 的 窗口 。 


Parallel projectior 
Use horizontal view anele: 
Use off axis projection: F 


Clipping range: FQ: 4.22273550264 


Ft: 126954685402 


Distance 79652284166 
Eye anele: 20 
Eye separation: 006 


Focal disk: 10 
Focal point: FG 00 
Left eye: 1 
Parallel scale: 206155281281 
Position FO: 18212461905 
Screen bottom left FO: -05 
Screen bottom right FL 05 
Screen top right FE 05 
Thickness: 8.47273303753 
View angle: 300 
View plane normat FO: 19938534185 
View shear FO 00 
View up: FQ: 3236699193 
Window center: FE 00 


:12482089393 


: 36762079226 

Ft 00 
FT 33347534297 
Fi: 00 


F2 ;6297824282 
F2 -05 
F2 -05 
F2 -05 


F2 '3953551557 
F2 10 
F2 .3185069689 


也 可 以 使 用 下 夯 


Sg 


图 8-5 编辑 照相 机 属性 的 对 话 框 


j 的 程序 从 窗口 对 象 window 获得 照相 机 对 象 ， 然 后 查看 或 修改 它 的 


从 兴 吕 问 川村 并 内 -IAeAeWN WT MLAL 


camera = window.scene.renderer.active_camera 


print camera.clipping_range 
camera.view up = 0, 1, 0 


camera.edit_traits() # 显示 编辑 照相 机 属性 的 窗口 


[ 4.2227355 


12.69546854] 


下 面 列 出 照相 机 对 象 的 一 些 常用 属性 : 


e clipping_range: 它 有 两 个 元 素 ， 分 别 表示 照相 机 到 近 远 两 个 裁 前 3 


个 平面 之 外 的 对 象 将 不 会 显示 。 


的 距离 。 在 


E 这 两 
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position: 照相 机 在 三 维 空间 中 的 坐标 。 

focal_point: 照相 机 所 聚焦 的 焦点 坐标 。 

view_up: 照相 机 的 上 方向 矢量 。 

parallel projection: True 表示 采用 平行 透视 ， 即 在 三 维 场景 中 平行 的 直线 在 屏幕 上 也 
是 平行 的 。 

这 些 属性 虽然 可 以 完全 控制 照相 机 的 位 置 和 方向 , 但 是 实际 操作 起 来 并 不 方便 。 如 果 已 经 
将 照相 机 的 焦点 固定 在 某 个 位 置 ， 可 以 调用 照相 机 对 象 的 如 下 两 个 方法 ， 在 以 焦点 为 原点 的 球 
看 坐标 系 中 对 照相 机 进行 操作 。 它 们 保持 照相 机 的 view_up 属性 不 变 。 

e azimuth(angle): 沿 着 纬度 线 旋转 指定 角度 ， 即 水 平 旋转 ， 改 变 其 经 度 。 

e elevation(angle): 沿 着 经 度 线 方向 旋转 指定 角度 ， 即 垂直 旋转 ， 改 变 其 纬度 。 


2. 光源 
在 ivtk 窗口 中 ， 单 击 场景 上 方 的 工具 栏 中 的 最 后 一 个 齿轮 形状 的 图 标 ， 将 打开 如 图 8-6 所 
示 的 编辑 场景 和 光源 的 对 话 框 。 在 此 对 话 框 中 可 以 添加 和 删除 光源 以 及 修改 它们 的 一 些 属性 。 


[ Scene | 
Light mode: 

Number of lghts 3 一 儒 

Light [Lieht2 | Lieht3 | Light4 
Activate: 加 
Elevatior: -5000 © 匡 © 90000 45000 
Azimuth: -500 © 甘 © 9500 4500 
Intensity: 00 目 10 

Color 《255.255.255) 


图 86 设置 场景 和 光源 的 对 话 框 


场景 中 的 光源 可 以 通过 Renderer 对象 的 lights 属性 获得 , 它 是 一 个 光源 对 象 的 列表 。Renderer 
对 象 还 有 add_light0 和 remove_light0 等 方法 用 于 添加 或 删除 光源 对 象 。 


lights = window.scene.renderer.lights 
1lights[6] .edit_ traits() # 显示 编辑 光源 属性 的 窗口 


下 面 的 程序 在 照相 机 所 在 处 添加 一 个 红色 的 光源 ， 它 的 照射 方向 和 照相 机 的 方向 相同 ， 朝 
向 focal_point 点 。 如 果 设 置 光 源 对 象 的 positional 属性 为 Tue， 它 将 变 成 一 个 探照灯 光源 ， 这 时 
照射 方向 有 效 。 并 且 可 以 通过 cone_angle 属性 设置 探照灯 的 光 锥 角度 ， 如 果 光 锥 为 180 度 ， 它 


是 无 方向 光源 。 


camera = Window.scene.renderer.active_camera 
light = tvtk.Light(color=(1,6,6)) 
light.position=camera.position 
light.focal_point=camera.focal_point 

window. scene.renderer.add light(light) 


3. 实 体 


Actor 对 象 表示 场景 中 的 实体 ， 在 圆锥 的 流水 线 浏览 器 中 ， 可 以 看 到 一 个 表示 圆锥 的 Actor 
对 象 ， 双 击 它 会 打开 如 图 8-7 所 示 的 对 话 框 。 


Use bounds: 回 
Visibility: 加 


Estimated render time: 00 
Orientation: FO 00 FE -0 
Origir FO 00 Ff: 0 
Positior: FG 00 Ft 00 
Render time multiplier 0.675253240083 
Scale FG 10 FE 1 


图 8-7 Actor 对象 的 编辑 对 话 框 


也 可 以 使 用 下 面 的 程序 打开 此 对 话 框 : 


a.edit_traits() # a 是 表示 圆锥 的 Actor 对 象 
window.scene.renderer.actors[6].edit_ traits() 


在 此 对 话 框 中 可 以 编辑 Actor 对 象 的 origin、position、orientation 和 scale 等 属性 ， 修 改 场景 
中 实体 的 位 置 、 方 向 以 及 大 小 。 这 4 个 属性 通过 一 系列 复杂 的 计算 得 到 一 个 4X4 的 三 维 空间 的 
变换 和 矩阵。 变换 步骤 如 下 : 

(1) 以 origin 为 中 心 ， 使 用 scale 对 物体 在 三 个 轴 上 进行 缩放 。 

(2) 以 origin 为 中 心 ， 使 用 rotate 对 物体 在 三 个 轴 上 进行 旋转 ， 旋 转 的 顺序 是 了 轴 一 X 轴 
一 Z 轴 。 

(3) 将 物体 放 到 position 处 。 

我 们 通过 下 面 的 例子 理解 坐标 变换 的 步 又。 首先 运行 下 面 的 程序 ， 在 场景 中 添加 一 个 坐 
标 轴 : 
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axe = tvtk.AxesActor(total_length=(3,3,3)) # 在 场景 中 添加 坐标 轴 
window.scene.add_actor( axe ) 


可 以 看 到 屏幕 的 横 轴 方向 是 X 轴 ， 纵 轴 方 向 是 Y 轴 ， 而 从 屏幕 里 往外 是 Z 轴 方向 。 整 个 
圆锥 的 长 度 为 3， 它 的 底面 在 X=1.5 的 平面 之 上 。 双 击 流水 线 对 话 框 中 的 表示 圆锥 的 Actor, 
打开 编辑 其 属性 的 对 话 框 。 

我 们 将 origin 修改 为 -1.5, 0,0)， 这 样 将 以 圆锥 的 底面 圆心 为 中 心 进行 缩放 和 旋转 。 依 次 按 
照 图 8-8 的 顺序 修改 各 个 属性 的 值 。 对 话 框 中 的 “F0”、“F1l1” 和 “F2” 等 标签 分 别 表 示 X、 
Y 和 Z 轴 的 分 量 。 


scalex = 0.5 orientation y = -90 


2 


pe 
汪 医 本 下 


position y = 1.5 position x = 1.5 


XxX Uone3usluo 


图 8-8 依次 修改 圆锥 的 scale、orientation 和 position 属性 


请 读者 仔细 观察 每 两 幅 图 之 间 的 变化 , 分 析 并 理解 前 述 坐 标 变换 步骤 。 旋转 的 正方 向 按照 
右手 法 则 决定 : 右手 握拳 ， 并 伸 出 大 拇指 让 它 指向 某 个 轴 的 正方 向 ， 则 其 余 4 指 的 方向 为 绕 此 
轴 旋 转 的 正方 向 。 

Actor 对 象 的 property 属性 是 一 个 OpenGLProperty 对 象 , 它 包 含 了 对 实体 进行 着 色 时 所 使 
的 各 种 配置 , 例如 color 属性 是 实体 的 颜色 ，opacity 属性 是 实体 的 不 透明 度 。 输入 下 面 的 语句 可 
以 打开 编辑 这 些 属性 的 对 话 框 : 


.property.edit_traits() # a 是 表示 圆锥 的 Actor 对 象 


于 OpenGLProperty 对 象 的 属性 太 多 ,这 里 不 一 一 进行 介绍 。 在 后 面 的 实例 中 用 到 时 再 对 
其 进行 说 明 。 


8.2 数据 集 


A 与 本 节 内 容 对 应 的 Notebook 为 : 08-tvtk_mayaviftvtk_mayavi-300-datasetipynb。 


数据 可 视 化 的 第 一 步 是 用 合适 的 数据 结构 表示 数据 , VTK 提供 了 多 种 表示 不 同 种 类 数据 的 
数据 集 (Dataset)。 数 据 集 包 括 点 (PoinD 和 数据 (Data) 两 部 分 。 点 之 间 可 以 是 连接 的 或 非 连 接 的 ， 
多 个 相关 的 点 组 成 单元 (Cel)， 而 点 之 间 的 连接 可 以 是 显 式 或 隐 式 的 。 数 据 可 以 是 标量 或 矢量 ， 
数据 可 以 属于 点 或 单元 。 下 面 让 我 们 通过 一 些 实例 逐步 理解 数据 集 的 构造 。 

为 了 帮助 读者 更 形象 地 了 解数 据 集 的 结构 ， 我 们 使 用 Mayavi 将 数据 集 的 结构 绘制 成 三 维 
图 。 请 读者 在 9 过程 中 运行 这 些 程序 ， 以 加 深 对 数据 集 的 理解 。 在 学 习 Mayavi 时 ， 也 可 
以 将 这 些 程序 作为 实例 ， 了 解 Mayavi 的 一 些 高 级 用 法 。 


8.2.1 ImageData 


最 容易 理解 的 数据 集 是 ImageData， 它 是 表示 二 维 或 三 维 图 像 的 数据 结构 。 可 以 简单 地 将 
其 理解 为 二 维 或 三 维 数组 。 数 组 中 存放 的 是 数据 ， 由 于 点 位 于 正 交 且 等 间距 的 网 格 之 上 ， 因 此 
不 需要 给 出 点 的 坐标 ， 而 点 之 间 的 连接 关系 也 由 它们 在 数组 中 的 位 置 决定 ， 因 此 连接 也 是 隐 
式 的 。 
下 面 的 程序 创建 了 一 个 ImageData 对 象 ， 并 且 设 置 了 它 的 spacing、origin 和 dimensions 
属性 : 
img = tvtk.ImageData(spacing=(0.1,8.1,8.1), origin=(0.1,0.2,0.3), dimensions=(3,4,5)) 


origin 属性 为 三 维 网 格 数据 的 起 点 坐标 , spacing 属性 为 三 维 网 格 在 X、Y 和 Z 轴 上 的 间距 ， 
dimensions 属性 为 X、Y 和 Z 轴 上 的 网 格 数 ,img.get_point(n) 可 以 获得 网 格 中 第 n 个 点 的 坐标 值 ， 
n 为 点 的 序号 ， 起 始点 的 序号 为 0， 序 号 依次 沿 着 X、Y 和 乙 轴 递 增 。 下 面 的 程序 输出 前 6 个 点 
的 坐标 : 


for n in range(6): 
print "%.1f, %.1f, %.1f" % img.get_point(n) 
0.1, 0.2, 0.3 
0.2, 0.2, 0.3 
O23 02 E03 
0.1, 8.3, 0.3 
0.2, 0.3, 0.3 
0.3, 8.3, 0.3 
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与 每 个 点 对 应 的 数据 都 保存 在 point_data 属性 中 ， 它 是 一 个 PointData 对 象 : 


img.point_data 
<tvtk.tvtk_classes.point_data.PointData at 6xa187786> 


PointData 对 象 可 以 保存 多 组 数据 ， 它 的 scalars 属性 是 VTK 库 中 的 一 个 数组 对 象 ， 用 来 保 
存 与 每 个 点 相对 应 的 标量 值 。 当 将 一 个 NumPy 数组 赋值 给 它 时 ，TVTK 将 自动 创建 VTK 中 相 
应 的 数组 对 象 ， 并 保存 NumPy 数组 的 内 容 。 例 如 下 面 的 程序 运行 之 后 ，scalars 属性 从 None 变 
成 一 个 DoubleArray 数组 。 程 序 为 每 个 点 添加 了 一 个 与 其 序号 相同 的 标量 值 : 


print img.point_data.scalars # 没有 数据 
img.point_data.scalars = np.arange(6.6，jimg.number_of_points) 
print type(img.point_data.scalars) 

img.point_data.scalars 

None 

<class 'tvtk.tvtk_classes.double_array.DoubleArray'> 

[6.0, ..., 59.0], length = 60 


DoubleArray 数组 只 能 以 整数 为 下 标 ， 不 支持 切片 以 及 其 他 高 级 下 标 运 算 。 可 以 通过 它 的 
to_array0 方 法 获得 与 其 共享 数据 存储 空间 的 NumPy 数组 ， 通 过 此 NumPy 数组 可 以 进行 更 高 级 
的 数据 存 取 操作 : 


a = img.point_data.scalars.to_array() 

print a 

a[:2] = 16, 11 

print img.point_data.scalars[6]，img.point_data.scalars[1] 

[9 3 
3 dB 29v 
SLS 00 3 2300 9% "MD. 01s 
9 

16.6 11.6 


VTK 的 数组 对 象 有 许多 属性 ， 可 以 用 print_traits0 方 法 查看 其 各 个 属性 的 值 ， 例 如 
number_of_tuples 属性 表示 数组 的 长 度 : 


img.point_data.scalars.number_of _ tuples 
66 


每 个 VTK 数组 都 有 一 个 name 属性 用 于 保存 其 名 字 ， 下 面 的 语句 将 数组 的 名 字 设 置 为 


'scalars': 


img.point_data.scalars.name = 'scalars’ 


PointData 对 象 可 以 保存 多 个 数组 ， 它 所 包含 的 数组 的 个 数 可 以 通过 number_of_arrays 属性 
获得 ， 可 以 通过 add_array0 方 法 添加 新 的 数组 对 象 ，remove_array0 方 法 用 于 删除 数组 对 象 ， 
getaray0 和 get_array_name0 分 别 用 于 获得 数组 对 象 及 其 名 字 。 下 面 演示 这 些 方法 的 用 法 。 首先 
创建 一 个 TVTK 的 数组 对 象 ， 并 调用 其 from_array0 方 法 通过 NumPy 数组 设置 其 内 容 ， 数 组 的 
长 度 为 ImageData 对 象 的 点 数 : 


data = tvtk.DoubleArray() # 创建 一 个 空 的 DoubleArray 数组 
data.from_array(np.zeros(img.number_of_points)) 


接 下 来 将 TVTK 数组 对 象 的 名 字 设 置 为 "zerodata": 
data.name = "zerodata" 


然后 调用 PointData 对 象 的 add_aray0 方 法 ， 将 所 创建 的 数组 添加 进 PointData 对 象 。 当 
PointData 对 象 已 经 有 相同 名 字 的 数组 时 ， 将 会 覆盖 原来 的 数组 。add_aray() 方 法 的 返回 值 是 新 
数组 的 序号 ， 可 以 通过 此 序号 获得 数组 或 数组 名 : 


print img.point_data.add_array(data) 

print repr(img.point_data.get_array(1)) # 获得 第 1 个 数组 
print img.point_data.get_array_name(1) # 获得 第 1 个 数组 的 名 字 
print repr(img.point_data.get_array(8)) # 获得 第 8 个 数组 
print img.point_data.get_array_name(6) # 获得 第 6 个 数组 的 名 字 
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[0.0, ..., 0.0], length = 66 
zerodata 

[10.6, ..., 59.0], length = 66 
scalars 


最 后 ，remove_array0 方 法 通过 数组 名 删除 数组 : 


img.point_data.remove_array("zerodata") # 删除 名 为 "zerodata" 的 数组 
img.point_data.number_of_arrays 
本 


可 以 用 上 述 方法 对 PointData 对 象 中 的 多 个 数组 进行 管理 ， 同 时 为 了 方便 使 用 ， 它 的 scalars 
属性 也 可 用 于 保存 数组 。 与 每 个 点 所 对 应 的 值 除 了 标量 之 外 ， 还 可 以 是 矢量 或 张 量 (矩阵 )， 矢 
量 数组 可 以 使 用 vectors 属性 保存 , 而 张 量 数组 可 以 使 用 tensors 属性 保存 。 下 面 的 程序 将 一 个 形 
状 为 QQ3) 的 NumPy 数组 赋值 给 vectors 属性 ， 其 中 N 为 点 数 ， 这 样 ImageData 对 象 中 的 每 个 点 
都 对 应 三 维 空间 中 的 一 个 矢量 : 


vectors = np.arange(6.6，jimg.number_of_points*3).reshape(-1，3) 
img.point_data.vectors = vectors 
print repr(img.point_data.vectors) 
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print type(img.point_data.vectors) 

print img.point_data.vectors[6] 
[(8.6，1.6，2.6)，...，(177.6，178.6，179.6)]，length = 60 
<class 'tvtk.tvtk_classes.double array.DoubleArray'> 
(6.6，1.6，2.6) 


我 们 看 到 所 创建 的 仍然 是 一 个 DoubleArray 对 象 ， 但 它 是 二 维 数组 。number_ of tuples 属性 
获得 其 第 0 轴 的 长 度 ， 而 number_of_ components 属性 获得 其 第 1 轴 的 长 度 : 


img.point_data.vectors.number_of_tuples jimg.point_data.vectors.number_of_components 


同样 ， 直 接 使 用 DoubleArray 对 象 的 方法 或 属性 对 其 进行 操作 比较 烦琐 ， 因 此 建议 读者 仍 
然 使 用 to_array0 方 法 将 其 转换 为 NumPy 数组 之 后 再 进行 操作 。 
在 ImageData 对 象 中 ， 点 的 坐标 是 通过 spacing、origin 和 dimensions 等 属性 隐 式 定义 的 。 与 
之 类 似 ， 点 和 单元 之 间 的 关系 也 是 隐 式 定义 的 。 单 元 和 点 之 间 的 关系 如 图 8-9 所 示 。 单 元 是 由 
8 个 邻近 的 点 构成 的 立方 体 ， 图 中 使 用 半 透 明 灰 色 立 方 体 标识 出 第 0 个 单元 。 


点 (Point) 


a 


图 8.9 单元 和 点 之 间 的 关系 


1 scpy2.tvtk.figure_imagedata: 用 于 绘制 图 8-9 的 程序 。 


通过 get_cell0 方 法 可 以 获得 表示 单元 的 Voxel( 体 素 ) 对 象 ， 它 的 number_of_points 、 


number_of_edges 和 number_of faces 等 属性 分 别 是 构成 体 素 对 象 的 点 数 、 边 数 以 及 面 数 。 


标 : 


cell = jimg.get_cel1(6) 

print repr(cell) 

<tvtk.tvtk_classes.voxel.Voxel object at 6x6A184C36> 
cell.number_of points cell.number of edges cell.number of faces 


point_ids 属性 可 以 获得 构成 体 素 的 点 的 序号 列表 ， 而 points 属性 则 获得 构成 体 素 的 点 的 坐 


print repr(cel1.point_ids) 
cell.points.to_array() 
[orb Sd 12 49 516] 
array([[ 8.1, 6.2， 6.3]， 


[ 60.2,， 0.2， 90.3], 
[i051 O03 03] 
[ 8.2，8.3，8.3]， 
[oT 02 0.41 
[ 8.2，8.2，8.4]， 
[ 0.1, 0.3,， 8.4], 
[ 6.2, 8.3， 0.4]]) 


ImageData 对 象 的 number_of_cells 属性 是 数据 集中 的 单元 数 ， 也 就 是 图 8-9 中 小 立方 体 的 


数目 。 


img.number_of_cells 
24 


数据 集 提供 了 许多 获取 点 和 单元 之 间 关 系 的 方法 。 例 如 get_point_cells0 获 得 包含 某 个 点 的 


所 有 单元 的 序号 ， 而 get_cell_points0 则 获得 某 个 单元 包含 的 所 有 点 的 序号 。 由 于 这 两 个 方法 将 
结果 写 入 一 个 JdList 对 象 中 ， 因 此 需要 先 创建 一 个 空 的 JdList 对 象 用 于 保存 结果 : 


a = tvtk.IdList() 

img.get_point_cells(3, a) 

print "cells of point 3:", repr(a) 

img.get_cell points(0, a) 

print "points of cell 6:"，repr(a) # 和 cell.point_ids 的 值 相同 
cells of point 3: [2, 8] 

podnts of call 0 [0 fe 374, :125 17135 5 6] 


IdList 是 VTK 中 管理 序号 的 列表 对 象 , 它 和 Python 的 标准 列表 一 样 支持 append0 和 extend0 
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方法 ， 并 且 可 以 通过 from_array0 将 列表 或 数组 转换 为 IdList 对 象 : 


a = tvtk.IdList() 
a.from array([1,2,3]) 
a.append(4) 
a.extend([5,6]) 
print repr(a) 

| | 


与 每 个 单元 对 应 的 数据 都 保存 在 cell_data 属性 中 , 它 是 一 个 CellData 对象, 用 法 和 PointData 
对 象 类 似 ， 这 里 就 不 再 多 做 介绍 了 。 


img.cell_data 
<tvtk.tvtk_classes.cell_data.CellData at 6xa285c68> 


8.2.2 RectilinearGrid 


ImageData 是 最 简单 的 数据 集 ， 它 的 所 有 点 都 在 一 个 等 间距 的 三 维 网 格 之 上 ， 因 此 只 需要 
起 始 坐标 、 网 格 大 小 以 及 网 格 间距 等 信息 就 可 以 计算 出 网 格 上 所 有 点 的 坐标 。 如 果 要 表示 间距 
不 均匀 的 网 格 ， 可 以 使 用 如 图 8-10 所 示 的 RectilinearGrid 数据 集 。 


图 8-10 使 用 RectilinearGrid 创建 分 布 不 均匀 的 网 格 


A scpy2.tvtk.figure_rectilineargrid: 绘制 图 8-10 的 程序 。 


x = np.array([8,3,9,15]) 
y = np.array([8,1,5]) 

z = np.array([6,2,3]) 

r= tvtk.RectilinearGrid() 
r.x coordinates =x © 


r.y_coordinates = y 
r.z_coordinates = Z 
r.dimensions = len(x), len(y), len(z) @ 


r.point_data.scalars = np.arange(8.8,r.number_of points) © 
r.point_data.scalars.name = 'scalars" 


RectilinearGrid 和 ImageData 相同 ， 所 有 点 都 在 一 个 正 交 的 网 格 之 上 ， 所 不 同 的 是 网 格 的 分 
布 是 不 均匀 的 ， 因 此 需要 通过 一 些 属性 设置 X、Y 和 Z 轴 的 各 个 网 格 平面 的 位 置 。@ 通 过 
RectilinearGrid 对 象 的 x_coordinates、y_coordinates 和 z_coordinates 等 属性 ， 分 别 设置 网 格 中 与 X 
轴 、Y 轴 和 Z 轴 垂直 的 平面 的 位 置 。RectilinearGrid 对 象 中 的 点 就 是 所 有 这 些 平面 的 交点 。@ 由 
于 RectilinearGrid 对 象 不 会 根据 这 三 个 数组 的 长 度 自动 调整 dimensions 属性 ， 因 此 需要 根据 数组 
的 长 度 设置 dimensions 属性 。@ 最 后 通过 point_data 属性 设置 每 个 点 所 对 应 的 数据 。 

和 ImageData 对 象 一 样 ， 点 的 序号 依次 沿 着 X、Y 和 了 乙 轴 递 增 ， 例 如 ; 


for i in xrange(6): 
print r.get point(i) 

(8.60, 0.0, 0.0) 

(3.0, 0.0, 0.0) 

(9.0, 0.0, 90.6) 

(15.0, 86.0, 0.0) 

(0.0, 1.0, 0.0) 
(3.6，1.6，6.6) 


单元 和 点 之 间 的 关系 也 和 ImageData 一 样 ; 


c= r.get cell(1) 

print "points of cell 1:", repr(c.point_ids) 
print c.points.to_array() 

DOMEs of cel LE [lr 2 Dor 3 4 28] 


[[ 3. 8. 0.] 
9. 8@. 0.] 
201 50 
| 
320:020523] 
SO | 
和 22 
9 .12 
8.2.3 StructuredGrid 
比 RectilinearGrid 更 进一步 ，StructuredGrid 需要 我 们 指定 每 个 点 的 坐标 。 而 点 和 单元 之 间 的 


关系 仍然 由 点 在 网 格 中 的 位 置 决定 。 图 8-11 显示 了 两 种 用 StructuredGrid 创建 的 网 格 结构 。 


六 沙 相 容 川 合 满 浴 -IMeheW JTJTAL 


，Python 科学 计算 (第 2 版 ) 


点 的 下 标 顺序 


get_cell(2) 


x *= (4-z)/3 © 
y *= (4-Z)/3 
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get_cell(3) 


\ 


对 天 天 大 


ND 


入 各 二 


点 的 下 标 顺序 


图 8-11 用 StucturedGrid 创建 的 网 格 结构 


下 面 对 创 建 这 两 个 网 格 的 程序 进行 分 析 ; 
全 -pwvuaere sncurdeid 从 图 811 的 程序 


def make_points_array(x, y, 2z): 
return np.c_[x.ravel(), y.ravel(), z.ravel()] 
z, y, Xx = np.mgrid[:3.6, :5.6, :4.06] © 


s1 = tvtk.StructuredGrid() 
s1.points = make_points_array(x, y, z) © 


sl1.dimensions = x.shape[::-1] @ 
s1.point_data.scalars = np.arange(86，s1.number_of_points) 
s1.point_data.scalars.name = 'scalars"' 


@ 首 先 用 NumPy 的 mgrid 对 和 象 创建 了 三 个 数组 x、y 和 z。 它 们 的 形状 都 是 (3,5,4)。 其 中 数 


组 x 的 数据 在 第 2 轴 上 变化 ， 数 组 y 的 数据 在 第 1 轴 上 变化 ， 数 组 z 的 数据 在 第 0 轴 上 变化 。 


在 这 三 个 数组 中 , 由 对 应 下 标的 数值 组 成 等 间距 网 格 上 的 点 .@ 将 每 个 点 的 X 和 Y 轴 的 坐标 值 ， 
乘 以 由 乙 轴 坐 标 值 决定 的 系数 。 沿 着 乙 轴 正 方向 乘积 系数 逐渐 变 小 ,相当 于 将 垂直 乙 轴 的 网 格 


进行 不 同比 例 的 收缩 ， 最 终 形成 一 个 如 图 8-11( 左 ) 所 示 的 梯形 网 格 。 


人 @StructuredGrid 对 象 的 points 属性 是 数据 集中 每 个 点 的 坐标 。 它 是 一 个 表示 N 个 点 的 坐标 


的 数组 ， 形 状 为 QN, 3)。 因 


比 需要 将 三 个 形状 为 (3,5,4) 的 多 维 数组 合并 成 一 个 形状 为 (3*5*4, 3) 的 


二 维 数组 。 这 个 转换 工作 


make_points_array0 完 成 。 其 中 首先 调用 参数 数组 的 ravel0 方 法 ， 得 


到 其 平坦 化 之 后 的 一 维 数组 ， 然 后 通过 np.c_ 对象 将 三 个 一 维 数组 按 列 组 合成 二 维 数组 。 
@ 将 StructuredGrid 对 象 的 dimensions 属性 设置 为 (4,5,3)。 在 points 属性 中 只 保存 点 的 坐标 ， 


点 之 间 的 关系 由 dimensions 属性 决定 。dimensions 和 NumPy 数组 的 shape 属性 类 似 , 但 是 其 中 第 


0 轴 的 变化 最 快 ， 因 此 需要 将 数组 的 shape 属性 倒序 之 后 再 赋值 给 它 。 经 过 


dimensions 属性 处 理 


之 后 ， 各 个 点 之 间 的 关系 如 图 8-12 所 示 。 图 中 每 个 小 方块 代表 points 属性 中 的 一 个 点 ,方块 上 


的 数字 表示 点 在 points 属性 中 的 下 标 。 


0 1 2 3 


4 5 6 了 


图 8-12 dimensions 为 (4,5,3) 的 StructuredGrid 的 点 的 结构 


sl.get cell(2).point ids 
[3 7 0 22.0 .23 27. 261 


get_edge0 方 法 分 别 用 于 获得 构成 此 单元 的 面 和 边 : 


c = sl.get_cell(2) 

print "cell type:"，type(c) 

print "number_of_faces:"，c.number_of_faces # 单 元 的 面 数 
f = c.get_face(8) # 获 得 第 8 个 面 

print "face type:"，type(f) # 每 个 面 用 一 个 Quad 对 象 表示 


单元 由 网 格 中 相 邻 的 几 个 点 构成 ， 因 此 单元 2 由 图 8-12 中 8 个 灰色 矩形 表示 的 点 构成 : 


于 单元 的 形状 不 是 长 方 体 ， 因 此 VTK 采用 Hexahedron 对 象 表示 单元 ，get_face0 和 


print "points of face 6:"，repr(f.point_ids) # 构 成 第 9 面 的 4 个 点 的 下 标 


print "edge count of cel1:"，c.number_of_edges # 单元 的 边 数 
e = c.get_edge(8) # 获 得 第 9 个 边 
print "edge type:", type(e) 


print "points of edge 6:"，repr(e.point_ids) # 构 成 第 6 边 的 两 个 点 的 下 标 


cell type: “class 'tvtk.tvtk_classes.hexahedron.Hexahedron'> 
number_of_faces: 6 

face type: <class 'tvtk.tvtk_classes.quad.Quad'> 

points of face 6: [2, 22, 26, 6] 

edge count of cell: 12 

edge type: <class 'tvtk.tvtk_classes.line.Line'> 

points of edge 6: [2, 3] 


使 用 StucturedGrid 可 以 创建 出 任意 形状 的 网 格 ， 例 如 下 面 的 程序 创 寻 


图 8-11( 右 ) 所 示 的 半 
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个 空心 圆柱 。 程 序 中 ， 首 先 在 圆柱 坐标 系 中 创建 等 距 网 格 ， 然 后 将 各 点 坐标 转换 到 直角 坐标 系 
， 具 体 的 步 又 留 给 读者 自行 分 析 。 


r, theta, z2 = np.mgrid[2:3:3j, -np.pi/2:np.pi/2:6j, 8:4:7j] 
x2 = np.cos(theta)*r 
y2 = np.sin(theta)*r 


s2 = tvtk.StructuredGrid(dimensions=x2. shape[::-1]) 
s2.points = make_points_array(x2, y2, z2) 
s2.point_data.scalars = np.arange(@, s2.number of points) 
5s2.point_ data.scalars.name = 'scalars' 


8.2.4 PolyData 


PolyData 数据 集 由 一 系列 的 点 、 点 之 间 的 连 线 以 及 由 点 构成 的 多 边 形 面 组 成 。 这 些 信息 都 


需要 用 户 进行 设置 ， 因 此 用 程序 创建 PolyData 对 象 比较 烦琐 。TVTK 中 的 许多 三 维 模型 类 都 输 
出 PolyData 对 象 。 例 如 在 第 一 节 中 介绍 的 创建 圆锥 数据 的 ConeSource 类 : 


source = tvtk.ConeSource(resolution = 4) 
source.update() # 让 source 计算 其 输出 数据 
cone = source.output 

type(cone) 
tvtk.tvtk_classes.poly_data.PolyData 


ConeSource 对 象 的 输出 数据 是 一 个 PolyData 对 象 。PolyData 对 象 的 points 属性 是 一 个 保存 


点 的 坐标 的 数组 。 为 了 方便 查看 各 个 点 的 坐标 ， 我 们 用 NumpPy 的 array_str0 函 数 输出 此 数组 的 
内 容 ， 利 用 suppress_small 参数 将 很 小 的 数 显 示 为 0: 


点 的 坐标 很 容易 看 出 底面 垂直 于 X 轴 , 并 且 在 X=-0.5 的 平面 上 ,而 


print np.array_str(cone.points.to_array(), suppress_small=True) 
[[8.5 86. 0.] 
[-86.5 6.5 8. ] 
[-86.5 6. 8.5] 
[-8.5 -6.5 86. ] 
[-8.5 -96。 -6.5]] 


锥 的 底面 是 一 个 正方 形 。 由 各 个 
引 锥 的 顶点 在 X 轴 上 的 X=0.5 


由 于 设置 了 ConeSource 对 象 的 resolution 属性 为 4， 因 此 图 


em 


处 。 各 个 点 之 间 的 联系 由 polys 属性 决定 : 


print type(cone.polys) 
print cone.polys.number_of_cells # 圆锥 有 5 个 面 
print cone.polys.to_array() 


<class 'tvtk.tvtk_classes.cel 
» 
下 


polys 属性 是 一 个 CellAmay 对 象 ， 其 中 保存 各 个 面 和 点 之 间 的 关系 。 我 们 创建 的 圆 


_array.CellArray "> 


343641] 


个 面 ， 因 此 CellArray 对 象 的 number_of_cells 属性 为 5。CellAmay 并 
组 保存 构成 各 个 面 的 点 的 下 标 。 由 于 构成 每 个 面 的 点 数 可 能 不 同 ， 


的 点 数 。 我 们 可 以 把 这 个 一 维 数 组 理解 为 


的 数值 是 构成 此 面 的 点 数 ， 冒 号 后 面 的 


- 串 数字 是 每 个 点 在 points 


据 可 知 ， 方 锥 由 4 个 三 角形 和 1 个 四 边 形 构 成 : 


A 


ww wmw ww 上 
@ @ 
ww 
wD 
oe 

PAPUWND 


下 面 看 看 如 何 直 接 创 建 PolyData 对象 ， 


p1 = tvtk.PolyData() 


pl.points = [(1,1,8),(1,-1,0),(-1,-1,8),(-1,1,08),(8,0,2)] © 


faces = [ 

4,0,1,2,3, 

3,4,0,1, 

3,4,1,2, 

3,4,2,3, 

3,4,3,0 

] 
cells = tvtk.CellArray() @ 
cells.set_cells(5, faces) © 
p1.polys = cells 


下 所 示 的 构造 : 其 中 每 


锥 有 5 


象 内 部 使 用 一 个 一 维 整数 数 


因此 还 需要 保存 构成 每 个 面 
一 行 对 应 一 个 面 ， 冒 号 前 面 
属性 中 的 下 标 。 由 下 面 的 数 


首先 是 一 个 简单 的 方 锥 的 例子 : 


p1.point_data.scalars = np.linspace(8.0, 1.0, len(p1.points)) 


@ 在 介绍 StucturedGrid 时 ， 我 们 将 一 个 形状 为 ON, 3) 的 数组 赋值 给 points 属性 ， 这 里 使 用 坐 
标 列表 进行 赋值 ， 效 果 和 使 用 数组 相同 。 思 为 了 给 polys 属性 赋值 ， 需 要 首先 创建 一 个 新 的 


CellArray 对 象 。 旭 然后 调用 CellArray 对 象 的 set_cells0 设 置 其 内 容 ， 


数 ， 第 二 个 参数 是 描述 各 个 面 的 构成 的 数组 (或 列表 )。 所 创建 的 方 锥 如 图 8-13( 左 ) 所 示 ， 图 中 标 


出 了 各 个 点 的 序号 。PolyData 对 象 吕 
和 第 1 个 面 。 


的 各 个 面 可 以 通过 get_cell0 方 法 获得 ， 图 中 标 出 了 第 0 个 


第 一 个 参数 为 面 (单元 ) 的 个 
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get_cell(1) 


get_cel1(6) 


图 8-13 用 PolyData 创建 的 多 面体 


9 scpy2.tvtk.figure_polydata: 绘制 图 8-13 的 程序 。 


下 面 获取 第 0 面 和 第 1 面 上 的 点 的 序号 : 


print repr(p1.get_cel1(6).point_ids) 
print repr(p1.get_cel1(1).point_ids) 
1 2 

[4, @, 1] 


下 面 是 使 用 PolyData 创建 半球 面 的 程序 ， 图 8-13( 右 ) 是 半球 面 的 显示 效果 。 为 了 显示 出 整 
个 半球 上 的 点 ， 图 中 将 面 隐藏 ， 仅 显示 各 个 面 的 边框 。 


N = 169 

a, b = np.mgrid[@:np.pi:N*1j, @:np.pi:N*1j] 
x = np.sin(a)*np.cos(b) 

y = np.sin(a)*np.sin(b) 

z= np.cos(a) 


points = make_points_array(x, y, z) © 
faces = np.zeros(((N-1)**2, 4), np.int) @ 
t1, t2 = np.mgrid[:(N-1)*N:N, :N-1] 
faces[:,8] = (t1+t2).ravel() 

faces[:,1] = faces[:,6] + 1 

faces[:,2] = faces[:,1] + N 

faces[:,3] = faces[:,6] + N 


p2 = tvtk.PolyData(points = points，polys = faces) 
p2.point_data.scalars = np.linspace(6.6，1.6，len(p2.points)) 


472 ， 


首先 将 球 坐 标 系 中 的 点 转换 为 直角 坐标 系 中 的 坐标 。 @ 然 后 调用 make_points_array0 将 这 些 


& 标 值 转换 为 形状 为 ON,3) 的 数组 。 思 如 果 每 个 面 的 点 数 相同 ， 可 以 用 一 个 二 维 数组 表示 面 和 点 
之 间 的 关系 ， 其 中 第 0 轴 的 长 度 为 面 数 ， 第 1 轴 的 长 度 为 每 个 面 的 点 数 。 可 以 将 此 二 维 数组 直 
接 赋值 给 polys 属性 ，TVTK 库 会 帮 我 们 完成 二 维 数组 到 CellArray 对 象 之 间 的 转换 。 


p2.polys.to_array()[:26] 
Cd .eo "rt [I a, ne eb i BT De es A ee Pe 1 A 
#4, .107 13]) 


请 读者 根据 程序 思考 faces 数组 的 计算 方法 ， 这 里 就 不 再 多 做 解释 了 。 


8.3 TVTK 的 改进 


会 与 本 节 内 容 对 应 的 Notebook 为 : 08-tvtk_mayavi/tvtk_mayavi-400-tvtk_and_vtkipynb。 


VTK 拥有 详细 的 CH+ API 说 明文 档 ， 而 Python 的 VTK 扩展 库 的 用 法 和 C++ 的 用 法 基本 相 


同 。 为 了 让 读者 能 有 效 地 用 TVTK 替代 VTK 扩展 库 ， 本 节 对 TVTK 的 一 些 改进 进行 总 结 。 首 
先 看 一 个 使 用 标准 的 VTK 扩展 库 显 示 圆锥 的 例子 : 


%%python 


# -*- coding: utf-8 -*- 
import vtk 


# 创建 一 个 圆锥 数据 源 

cone = vtk.vtkConeSource( ) 
cone.SetHeight( 3.6 ) 

cone.SetRadius( 1.6 ) 
cone.SetResolution(16) 

# 使 用 PolyDataMapper 将 数据 转换 为 图 形 数据 
coneMapper = vtk.vtkPolyDataMapper( ) 
coneMapper .SetInputConnection( cone.GetOutputPort( ) ) 
# 创建 一 个 Actor 

coneActor = vtk.vtkActor( ) 
coneActor.SetMapper ( coneMapper ) 

# 用 线 框 模式 显示 圆锥 
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coneActor .GetProperty( ) .SetRepresentationTowireframe( ) 
# 创建 Renderer 和 窗口 

ren1 = vtk.vtkRenderer( ) 
ren1.AddActor( coneActor ) 
ren1.SetBackground( 6.1 ，6.2 ，6.4 ) 
renWin = vtk.vtkRenderWindow( ) 
renWin.AddRenderer( renl ) 
renwWin.SetSize(366 ，366) 

# 创建 交互 工具 

iren = vtk.vtkRenderWindowInteractor( ) 
iren.SetRenderWindow( renWin ) 
iren.Initialize( ) 

iren.Start( ) 


此 程序 和 C++ 程序 的 区 别 仅仅 是 没有 声明 变量 的 类 型 , 其 他 的 用 法 完全 和 C++ 的 VTK API 
相同 。 宣 方 所 提供 的 VTK-Python 包 和 C++ 语言 的 接口 相似 ， 许 多 地 方 没有 体现 出 Python 作为 
动态 语言 的 优势 ， 可 以 说 标准 的 VTK-Python 库 不 是 Python 风格 的 。 为 了 弥补 这 些 不 足 之 处 ， 
Enthought 公司 开发 的 TVTK 库 进一步 对 VTK-Python 进行 包装 。 它 具有 如 下 优点 : 

e 支持 Trait 属性 
支持 元 素 的 Pickle 操作 
API 更 接近 Python 风格 
能 自动 处 理 NumPy 数组 或 列表 对 象 
流水 线 浏览 器 ivtk 


8.3.1 TVTK 的 基本 用 法 
下 面 是 前 面 介绍 过 的 用 TVTK 显示 圆锥 的 程序 : 
from tvtk.api import tvtk 


cs = tvtk.ConeSource(height=3.6，radius=1.6，resolution=36) 
m = tvtk.PolyDataMapper(input_connection = cs.output_port) 
a = tvtk.Actor(mapper=m) 

ren = tvtk.Renderer(background=(1, 1, 1)) 

ren.add_actor(a) 

rw = tvtk.RenderWindow(size=(380,360)) 

rw.add_renderer(ren) 

rwi = tvtk.RenderWindowInteractor(render_window=rw) 
rwi.initialize() 

rwi.start() 


可 以 看 到 它 比 标准 VTK 版 本 要 简短 许多 ， 从 中 可 以 看 到 TVTK 的 一 些 重 要 改进 : 


e TVTK 库 中 的 类 名 除去 了 前 缀 "vtk"。 有 些 类 名 在 "vtk" 之 后 是 数字 ，TVTK 库 对 这 种 类 
名 进行 特殊 处 理 : 如 果 首 字符 为 数字 ， 就 用 其 英文 单词 代替 ， 例 如 vtk3DSImporter 变 
成 ThreeDSImporter。 

e 函数 名 按照 Python 的 惯例 ， 采 用 下 划 线 连接 单词 ， 例 如 AddItem 变 成 add_item。 


。 许多 VTK 对 象 的 方法 在 TVTK 中 用 Teait 属性 替代 , 例如 下 面 列 出 了 圆锥 实例 中 的 两 
处 改进 : 

m.SetInputConnection(cs.GetOutputPort()) # VTK 

m.input_connection = cs.output_port # TVTK 

p.SetRepresentationToWireframe() # VTK 

p.representation = 'w' # TVTK 

e Trait 属性 可 以 在 创建 对 象 的 同时 通过 关键 字 参 数 进行 设置 ， 这 样 更 便于 程序 的 编写 
和 阅读 。 


在 TVTK 库 的 内 部 实现 中 ， 所 有 的 TVTK 对 象 的 内 部 都 有 一 个 VTK 对 象 ， 对 TVTK 对 象 
的 函数 调用 将 转 给 内 部 的 VTK 对 象 执行 。 如 果 返 回 值 是 VTK 对 象 ， 它 将 被 包装 成 TVTK 对 象 
返回 。 如 果 方 法 的 参数 是 TVTK 对 象 ， 其 中 的 VTK 对 象 将 作为 值 进行 参数 传递 。 


8.3.2 Trait 属性 


所 有 的 TVTK 类 都 从 HasStrictTraits 继承 , HasStrictTraits 规定 了 它 的 子 类 的 对 象 在 创建 之 后 
不 能 对 不 存在 的 属性 进行 赋值 。VTK 中 所 有 和 基本 状态 有 关 的 方法 在 TVTK 中 都 使 用 Trait 属 
性 表示 。 调 用 set0 方 法 可 以 一 次 设置 多 个 Trait 属性 ， 例 如 : 


p = tvtk.Property() 
p.set(opacity=0.5, color=(1,8,0), representation="w") 


调用 edit_traits0 或 configure_traits0 可 以 显示 编辑 属性 的 对 话 框 : 
p.edit traits() 


可 以 通过 tvtk.to_tvtk0 得 到 任何 TVTK 对 象 所 包装 的 TVK 对 象 , 在 必要 的 时 候 直接 对 VTK 
对 象 进行 操作 : 

print p.representation 

p_vtk = tvtk.to_vtk(p) 

p_vtk.SetRepresentationToSurface() 

print p.representation 


wireframe 
surface 


也 可 以 通过 TVTK 对 象 的 _vtk_obj 属性 获得 其 中 的 VTK 对 象 , 而 tvtkto_tvtk0 则 可 以 将 VTK 
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对 象 包装 成 TVTK 对 象 。 
8.3.3 序列 化 


TVTK 对 象 支持 简单 的 序列 化 处 理 。 单 个 TVTK 对 象 的 状态 可 以 被 序列 化 : 


import cPickle 

p = tvtk.Property() 
p.representation = "w" 
s = cPickle.dumps(p) 
delp 

q = cPickle.loads(s) 
q.representation 
"wireframe 


但 是 序列 化 仅仅 能 保存 对 象 的 状态 ， 对 象 之 间 的 引用 无 法 被 保存 。 因 此 TVTK 的 整个 流水 


象 的 状态 ， 可 以 如 下 调用 _ setstate_ (来 实现 ; 


p = tvtk.Property() 
p.interpolation = "flat" 
d = p._ getstate_() 
del p 

q = tvtk.Property() 
print q.interpolation 

q. setstate_(d) 

print q.interpolation 
gouraud 

flat 


8.3.4 集合 迭代 


从 tvtk.Collection 继承 的 对 象 可 以 像 标准 的 Python 序列 对 象 一 样 使 用 ， 
ActorCollection 对 象 支持 len0、appendO 以 及 for 循 环 : 


ac = tvtk.ActorCollection() 
print len(ac) 
ac.append(tvtk.Actor()) 
ac.append(tvtk.Actor()) 
print len(ac) 


for a in ac: 
print repr(a) 


476 ， 


线 无 法 用 序列 化 保存 。 通 常 pickleload0 将 创建 新 的 对 象 ， 如 果 我 们 希望 更 新 某 个 已 经 存在 的 对 


下 面 的 例子 演示 了 


del ac[6] 

print len(ac) 

9 

芝 

<tvtk.tvtk_classes.open_8g1_actor.OpenGLActor object at 6x6A24A696> 
<tvtk.tvtk_classes.open_8g1_actor.OpenGLActor object at 6x6A174ED6> 
和 


对 比 一 下 VTK 的 相应 程序 ， 就 能 体会 出 TVTK 库 的 优点 了 : 


import vtk 

ac = Vvtk.vtkActorCollection() 
print ac.GetNumberOfItems() 
ac.AddItem(vtk.vtkActor()) 
ac.AddItem(vtk.vtkActor()) 
print ac.GetNumberOfItems() 


ac.InitTraversal() 
for i in range(ac.GetNumberOfItems()): 
print repr(ac.GetNextItem()) 


ac.RemoveItem(6) 

print ac.GetNumberOfItems() 
9 

兴 

(vtkOpenGLActor)8A24AF96 
(vtkOpenGLActor)8A24AF68 

4 


8.3.5 ”数组 操作 


所 有 DataArray 的 派生 类 和 Python 的 序列 一 样 , 支持 迭代 接口 以 及 _ getitem_0、_setitem_0、 
__repr_0、append0、extend0 等 。 此 外 ， 还 可 以 通过 from_array0 直 接 用 NumPy 数组 或 列表 进行 
赋值 ， 可 以 很 方便 地 将 其 中 保存 的 数据 转换 为 NumPy 数组 。Points 和 IdList 等 对 象 也 同样 支持 
这 些 特性 : 


pts = tvtk.Points() 

p_array = np.eye(3) 

pts.from array(p_array) 

pts.print traits() 

pts.to_array() 

_in_set: @ 

_Vvtk_obj : (vtkPoints )8A2D82DO 


[BS 
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actual_memory_size: 1 

bounds: (6.6，1.6，6.6，1.6，6.6，1.6) 

class_name: "vtkPojints 

data: EGG .0.0 90:0) {0:0 1.0 0.0). (0-07 G0, 1:8)] 
data_type: “double ' 

data_type_: 1 

debug: 9 

debug_: 9 


global warning display: 1 
global warning display _: 1 


m time: 44927 
number_of_points: 3 
reference_count: 1 


array([[ 1., 9., 9.]， 
| a 5 
[ 90., 8., 1.]]) 


如 果 TVTK 对 象 的 属性 或 方法 能 够 接受 DataArray、Points、IdList 以 及 CellArray 等 对 象 ， 


那么 它 也 同时 能 够 接受 数组 和 列表 : 


points = np.array([[8,8,8],[1,8,8],[8,1,8],[98,8,1]], 'f') 
triangles = np.array([[8,1,3],[8,3,2],[1,2,3],[8,2,1]]) 
values = np.array([1.1, 1.2, 2.1, 2.2]) 

mesh = tvtk.PolyData(points=points, polys=triangles) 
mesh.point_data.scalars = values 

print repr(mesh.points) 

print repr(mesh.polys) 

print mesh.polys.to_array() 

print mesh.point_data.scalars.to_array() 

[(8.6, 0.0, 8.0), (1.0, 0.0, 6.0), (6.0, 1.0, 0.0), (08.0, 0.0, 1.6)] 
<tvtk.tvtk_classes.cell_array.CellArray object at 6x6A2E5366> 
下 

[ei] 


8.4 TVTK 可 视 化 实例 


j 与 本 节 内 容 对 应 的 Notebook 为 : 08-tvtk_mayavi/tvtk_mayavi-500-tvtk-examples.ipynb。 


1 于 篇 幅 所 限 ， 本 书 不 对 VTK 库 的 用 法 进行 详细 解释 。 在 本 节 ， 我 们 将 对 几 个 比较 典型 


的 实例 进行 分 析 。 希 望 读者 在 学 习 这 几 个 实例 之 后 能 够 融会 贯通 ， 掌 握 VTK 开发 的 一 般 流 程 


以 及 使 用 TVTK 带 来 的 便利 。 


从 VTK 的 网 站 可 以 下 载 大 量 的 CHH 和 TCL 的 程序 实例 ， 由 于 TVTK 的 用 法 更 加 简洁 ， 读 
者 应 该 能 很 容易 将 它们 转换 成 使 用 TVTK 库 的 Python 程序 。 

在 本 节 的 可 视 化 实例 程序 中 ， 使 用 了 本 书 提供 的 辅助 模块 scpy2.tvtktvtkhelp。 其 中 的 
ivtk_scene0) 使 用 ivtk 显示 一 组 Actor 对 象 。 


8.4.1 切面 


展示 三 维 数据 的 一 个 比较 简单 的 方法 是 使 用 切面 ， 对 切面 经 过 的 数据 进行 可 视 化 ， 这 样 就 


把 三 维 数据 可 视 化 问题 转换 成 了 二 维 数据 的 可 视 化 。 通 过 交互 式 地 修改 切面 的 位 置 和 方向 ，/ 


户 能 直观 地 对 三 维 数据 进行 观察 。 下 面 是 使 用 切片 工具 观察 数据 的 一 个 实例 ， 效 果 如 图 8-14 


所 示 。 


Ele Edit View 


4 口 Win320penGLRenderWindow 
OpenGLPainterDeviceAdapter 
4 MW Renderer 
4 转 Actor 
4 @ PolyDataMapper 


StructuredGrid 
团 LookupTable 


4 ®@ PolyDataMapper 
鹏 Cutter 
国 srucuredGrid 
用 plane 
贺 LookupTable 
转 Operellopey 
“ 转 hcto 
“加 i 
4 5 StructuredGridOutineFiter 
国 srucuredGrid 


4 StructuredGridGeometryFilter 


外 ; 国 辆 回回 回回 夺 日 永 国 园 舍 


~ 


Python 2.7.9 (default, Dec 19 2014, 12:24:55) [MSC v.1580 32 bit 《be on win32 
Type "help", "copyright", “credits" or "license”for more informatioi 


图 8-14 使 用 切面 观察 StructuredGrid 数据 集 


它 由 三 个 部 分 组 成 : 一 个 曲面 、 


个 平面 和 一 个 外 框 。 在 曲面 和 平面 上 ， 每 个 点 使 用 颜色 


表示 对 应 数值 的 大 小 。 由 于 我 们 使 用 ivtk 显示 可 视 化 结果 ， 因 此 可 以 使 用 界面 左 侧 的 流水 线 浏 


览 器 观察 组 成 整个 场景 的 流水 线 。 


A scpy2.tvtk.example_cut_plane: 切面 演示 程序 。 
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def read_data() : 
# 读 入 数据 
plot3d = tvtk.MultiBlockPLOT3DReader( © 
xyz_file name = "combxyz.bin", 
q_file name = "combq.bin", 
scalar_function number = 1860, vector function number = 266 


) 
plot3d.update() @ 
return plot3d 


plot3d = read data() 
grid = plot3d.output.get_block(6) © 


# 创建 颜色 映射 表 
lut = tvtk.LookupTable() @ 
lut.table = pl.cm.cool(np.arange(8,256))*255 


下 面 先 看 看 曲面 的 制作 过 程 。@ 为 了 对 可 视 化 的 方法 进行 重点 介绍 ， 我 们 直接 使 用 一 个 
MultiBlockPLOT3DReader 对 象 从 数据 文件 读 入 三 维 数据 信息 。@ 为 了 让 它 真正 从 文件 读 入 数据 ， 
需要 调用 其 update0 方 法 。 运行 此 方法 之 后 ，@ 就 可 以 通过 其 output 属性 获取 读 入 的 数据 集 对 象 
了 。 通 过 output 属性 获得 的 是 一 个 MultiBlockDataSet 对 象 ， 通 过 get_block(0) 可 以 获得 其 中 下 标 
0 对 应 的 StructuredGrid 数据 集 。 


print type(plot3d.output) 

print type(plot3d.output.get_block(6)) 

<class “tvtk.tvtk_classes.multi_block_data_set.MultiBlockDataSet '> 
<class 'tvtk.tvtk_classes.structured grid.StructuredGrid'> 


MultiBlockPLOT3DReader 读 入 PLOT3D 格式 的 文件 ，PLOT3D 是 一 种 流体 动力 学 数据 可 视 
化 的 程序 。 程 序 中 通过 设置 scalar_function_number 和 vector_function_number 属性 ， 分 别 指定 标 
量 数 组 和 矢量 数组 为 流体 的 密度 和 速度 。 各 个 参数 的 具体 含义 请 读者 查看 VTK 的 相关 文档 。 
MultiBlockPLOT3DReader 对 象 输出 的 是 一 个 StructuredGrid 数据 集 。 下 面 观察 它 的 一 些 属性 : 


print "dimensions:", grid.dimensions 

print grid.points.to_array() 

print "cell arrays:", grid.cell data.number_of _ arrays 
print "point arrays:", grid.point_data.number_of_arrays 


print "arrays name:" 
for i in xrange(grid.point_data.number_of_arrays): 


print " ", grid.point_ data.get_array_name(i) 


print "scalars name:", grid.point data.scalars.name 
print "vectors name:", grid.point data.vectors.name 
dimensions: [57 33 25] 
[[ 2.66766666 -3.77476661 23.83292667] 
[ 2.94346499 -3.74825287 23.66555977] 
[ 3.21985817 -3.72175312 23.49823952] 
Ns 
[ 15.84669618 5.66214685 35.7493782 ] 
[ 16.17829895 ”5.66214685 35.7493782 ] 
[ 16.51666623 ”5.66214685 35.7493782 ]] 
cell arrays: 6 
point arrays: 4 
arrays name: 
Density 
Momentum 
StagnationEnergy 
Velocity 
scalars name: Density 
vectors name: Velocity 


由 上 面 的 各 个 属性 可 以 得 知 ， 数 据 集 grid 是 一 个 形状 为 (57, 33, 25) 的 网 格 。 由 于 它 是 一 个 
StructuredGrid 对 象 , 因此 网 格 中 的 每 个 点 的 坐标 保存 在 points 属性 中 。 网 格 中 的 单元 没有 数据 ， 
而 每 个 点 对 应 4 种 数据 ,它们 的 名 字 分 别 为 "Density"、 "Momentum"、"StagnationEnergy" 和 "Velocity"。 
其 中 通过 point_data 的 scalars 属性 可 以 获得 名 为 "Density" 的 数组 , 它 是 一 个 标量 数组 , 而 "Velocity" 
数组 则 可 以 通过 point_data 的 vectors 属性 获得 ， 它 是 一 个 三 维 矢量 数组 。 切 面 将 针对 scalars 属 
性 的 数据 进行 运算 ， 因 的 是 切面 上 每 个 点 的 密度 值 。 

@ 我 们 需要 把 切面 上 的 密度 用 某 种 颜色 来 表示 ， 因 此 需要 进行 值 到 颜色 的 转换 。 在 VTK 
中 这 种 转换 工作 由 0 它 的 table 属性 是 一 个 保存 颜色 表 的 数组 。 这 里 我 们 
使 用 matplotlib 库 的 颜色 映射 对 象 计算 LookupTable 对 象 的 颜色 。 

接 下 来 显示 StructuredGrid 中 某 一 层 网 格 面 上 的 数据 : 


# 显示 StructuredGrid 中 的 一 个 网 格 面 

plane = tvtk.StructuredGridGeometryFilter(extent = (0, 1060, 8, 160, 6, 6)) © 

plane.set_input_data(grid) @ 

plane_mapper = tvtk.PolyDataMapper(lookup_table = lut, input_connection = 
plane.output_port) © 

plane_mapper.scalar_range = grid.scalar range @ 

plane_actor = tvtk.Actor(mapper = plane_mapper) © 


@StructuredGridGeometryFilter 对 象 能 从 StructuredGrid 对 象 中 提取 部 分 网 格 。 程 序 中 通过 
extent 属性 指定 了 提取 的 网 格 的 范围 : 第 0 轴 和 第 1 轴 的 范围 是 0 到 100， 而 第 2 轴 的 范围 是 6 
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人 


6。 其 中 第 0 轴 、 第 1 轴 的 范围 大 于 网 格 在 这 两 个 方向 上 的 长 度 ， 因 此 它们 提取 这 两 个 轴 上 
整个 范围 ， 而 在 第 2 轴 上 只 提取 第 6 层 的 数据 。@ 当 直接 把 数据 集 对 象 当 作 输 入 时 ， 应 当 调 


| 


VTK 中 的 SetInputData0 函 数 ,在 TVTK 中 该 函数 为 set_input_data()。StructuredGridGeometryFilter 


象 输出 一 个 PolyData 数据 集 : 


TVTK 库 没有 将 SetInputData0 转 换 成 input_data 属性 ， 因 此 需要 调用 与 之 对 应 的 
set_input_data0 函 数 来 设置 输入 数据 集 。 


plane.update() 

p = plane.output 

type(p) 
tvtk.tvtk_classes.poly_data.PolyData 


F 面 查看 这 个 PolyData 对 象 的 一 些 属性 : 


print p.number_of_points，8grid.dimensions[6] * grid.dimensions[1] 
1881 1881 


它 由 1881 个 点 构成 ， 因 为 它 是 StucturedGrid 对 象 中 第 2 轴 上 的 一 层 ， 所 以 它 的 点 数 等 于 


原始 数据 集 的 第 0 轴 和 第 1 轴 长 度 的 乘积 。 下 面 比较 StucturedGrid 对 象 和 PolyData 对 象 中 点 的 
坐标 ; 


print grid.dimensions 

points1 = grid.points.to_array().reshape((25,33,57,3)) 
points2 = p.points.to_array().reshape((33,57,3)) 
np.all(points1[6] == points2) 

[57 33 25] 

True 


pointsl 是 将 StructuredGrid 对 象 的 点 还 原 成 三 维 网 格 之 后 的 数组 , 数组 的 第 3 轴 表 示 每 个 点 


的 X、Y 和 乙 轴 的 坐标 值 。 由 于 NumpPy 数组 的 shape 属性 和 StructuredGrid 对 象 的 dimensions 属 


性 为 倒序 关系 ,因此 dimensions 属性 中 的 第 0 轴 相 当 于 shape 属 性 的 第 2 轴 。 同 样 ,我 们 将 PolyData 
对 象 的 点 还 原 成 表示 二 维 网 格 数组 的 points2。 因 为 我 们 提取 的 是 StructuredGrid 对 象 的 第 2 轴 的 
第 6 层 数据 ， 因 此 points1[6] 应 该 和 ponits2 相等 。 


使 用 StructuredGridGeometryFilter 对 象 不 但 从 数据 源 提取 了 点 的 坐标 , 还 提取 了 每 个 点 所 对 


应 的 数据 ， 因 此 PolyData 对 象 的 每 个 点 也 对 应 有 4 组 数据 ， 并 且 数 组 名 也 保持 不 变 。 


print p.point_data.number_of_arrays 
print p.point_data.scalars.name 


4 
Density 


人 @ 使 用 PolyDataMapper 对 象 将 PolyData 对 象 转换 为 图 形 数据 ， 同 时 用 前 面 创建 的 颜色 映射 
表 lut 对 PolyData 对 象 中 的 每 个 点 进行 着 色 。@ 为 了 能 使 用 颜色 映射 表 中 的 所 有 颜色 , 我 们 将 颜 
色 映 射 表 的 范围 设置 成 和 密度 数组 的 范围 一 致 。@ 最 后 创建 在 场景 中 显示 图 形 数据 的 Actor 
对 象 。 
接 下 来 是 创建 平面 切面 的 程序 


lut2 = tvtk.LookupTable() 

lut2.table = pl.cm.cool(np.arange(8,256))*255 

cut_plane = tvtk.Plane(origin = grid.center, normal=(-0.287, 0, 80.9579)) © 

cut = tvtk.Cutter(cut function = cut plane) @ 

cut.set_input_data(grid) 

cut_mapper = tvtk.PolyDataMapper(input_connection = cut.output_port, lookup_table = lut2) 
cut_actor = tvtk.Actor(mapper = cut_mapper) 


@ 首 先 创建 表示 平面 的 Plane 对 象 。 它 是 一 个 经 过 origin 属性 表示 的 坐标 点 ， 法 线 方 向 为 
normal 属性 的 无 限 平面 ， 通 过 这 两 个 属性 可 以 唯一 确定 平面 。Plane 对 象 的 输出 是 一 个 PolyData 
对 象 ; 


type(plane.output) 
tvtk.tvtk_classes.poly_data.PolyData 


四 创建 一 个 Cutter 对 象 ， 它 使 用 传递 给 cut_function 属性 的 Plane 对 象 ， 对 set_input_data0 设 
置 的 目标 数据 集 进 行 切面 插值 。Cutter 对 象 的 输出 也 是 PolyData 对 象 ， 由 于 StructuredGrid 对 象 
中 的 点 不 一 定 能 正好 落 在 Plane 对 象 所 指定 的 平面 之 上 ， 因 此 Cutter 对 象 会 对 StucturedGrid 对 
象 中 的 数据 进行 插值 计算 。 它 所 输出 的 PolyData 对 象 中 的 点 不 再 是 数据 源 中 的 点 。 

cut.update() 


cut.output.number_of_pojints 
2537 


PolyData 对 象 中 的 每 个 点 仍然 与 4 组 数据 相对 应 ， 这 些 数据 都 是 通过 对 数据 源 进行 插值 计 
算得 到 的 : 


Cut .output .point_data.number_of_arrays 
4 


为 了 在 场景 中 显示 切面 , 和 前 面 所 讲 的 曲面 一 样 , 使 用 PolyDataMapper 和 Actor 将 PolyData 
对 象 加 工 成 场景 中 的 物体 。 接 下 来 创建 StucturedGrid 对 象 的 外 边框 部 分 : 
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def make_outline(input_obj): 
from tvtk.common import configure_input 
outline = tvtk.StructuredGridOutlineFilter() 
configure_input(outline, input_obj) 
outline_mapper = tvtk.PolyDataMapper(input_connection = outline.output_port) 
outline_actor = tvtk.Actor(mapper = outline_mapper) 
outline_actor.property.color = 8.3, 8.3, 8.3 
return outline actor 


outline_actor = make_outline(grid) 


在 make_outline0 中 使 用 StructuredGridOutlineFilter 对 象 计算 出 一 个 表示 外 边框 的 PolyData 对 
象 。 其 中 调用 tvtk.common.configure_input0 来 设置 StructuredGridOutlineFilter 对 象 的 和 输入。 该 函数 
会 根据 输入 对 象 的 类 型 选择 input_connection 或 set_input_data0) 。 

请 读者 根据 前 面 介绍 的 方法 观察 此 PolyData 对 象 的 内 容 ， 这 里 就 不 再 举例 了 。 最 后 使 用 本 
书 提供 的 tvtkhelp 模 块 中 定义 的 ivtk_scene0 显 示 前 面 创建 的 三 个 Actor 对 和 象 : plane_actor、cut_actor、 


outline_actor。 


win = ivtk_scene([plane_actor, cut_actor, outline_actor]) 
win.scene.isometric_view() 


在 界面 左 侧 的 流水 线 浏览 器 中 ,双击 某 个 对 象 可 以 打开 对 应 的 编辑 器 ， 对 其 各 种 属性 进行 
编辑 。 例 如 可 以 打开 Plane 对 象 的 编辑 器 。 在 此 编辑 器 中 修改 Plane 对 象 的 original 和 normal 属 
性 ， 从 而 改变 切面 的 位 置 和 方向 ， 观 察 数据 集中 不 同位 置 的 密度 分 布 情况 。 而 打开 
StructuredGridGeometryFilter 对 象 的 编辑 器 ， 可 以 修改 曲面 切面 的 范围 。 图 8-15 显示 了 这 两 个 编 
辑 器 ， 以 及 通过 它们 修改 之 后 的 切面 。 


“日 Win320penGLRenderWindow 
加 OpenGLpainterDeviceAdapter 


+ W Renderer 一 一 一 一 一 
:Actor 双击 
+@ PolyDataMapper | 
“ 世 StructuredGridGeometryFiter 


国 StructuredGrid 
加 LookupTable 
® OpenGLProperty 
“ 司 Actor 
“名 polyDataMapper 
“BCutter 双 
国 StructuredGrid 


修改 提取 的 范围 


EPlane 
© LookupTable 
® OpenGLProperty 


图 8-15 通过 编辑 器 修改 切面 的 位 置 和 方向 


8.4.2 ”等 值 面 


等 值 面 是 标量 场 中 标量 值 相等 的 曲面 , 和 地 图 中 的 等 高 线 类 似 。 在 VTK 中 使 用 ContourFilter 
计算 等 值 面 。 下 面 的 程序 对 上 节 的 流体 数据 进行 等 值 面 可 视 化 ， 效 果 如 图 8-16 所 示 。 


图 8-16 使 用 等 值 面 对 标 量 场 进行 可 视 化 


scpy2.tvtk.example_contours: 使 用 等 值 面 可 视 化 标量 场 。 


DVD 


contours = tvtk.ContourFilter() 

contours. set_input_data(grid) 

contours.generate_values(8, grid.point_data.scalars.range) © 

mapper = tvtk.PolyDataMapper(input_connection = contours.output_port, 
scalar_range = grid.point data.scalars.range) © 

actor = tvtk.Actor(mapper = mapper) 

actor.property.opacity = 6.3 © 


outline_actor = make_outline(grid) 


win = ivtk_scene([actor, outline_actor]) 
win.scene.isometric_view() 


@ 创 建 一 个 ContourFilter 对 象 ， 并 且 调 用 generate_values0 方 法 来 创建 8 个 等 值 面 ， 等 值 面 
的 取 值 范围 由 标量 值 数组 scalars 的 范围 决定 .@ 等 值 面 的 颜色 映射 也 由 scalars 数组 的 范围 决定 。 
于 没有 设置 映射 器 的 颜色 表 ， 将 使 用 系统 缺 省 的 映射 表 ， 它 将 最 小 值 映射 为 红色 ,将 最 大 值 
映射 为 蓝 色 。 
四 由 于 8 个 等 值 面 是 嵌 套 的 ， 我 们 需要 修改 等 值 面 的 Actor 对 象 的 透明 度 ， 以 便 观 察 等 什 
j 的 内 部 构造 。 除了 使 用 generate_values0 创 建 等 差 等 值 面 之 外 , 还 可 以 使 用 set_value0 方 法 直接 
设置 每 个 等 值 面 的 值 ， 而 get_value0 方 法 可 以 获得 等 值 面 的 值 。 下 面 的 程序 修改 第 0 个 等 值 面 
的 值 : 
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print contours.get_value(6) 
contours.set_value(86，6.21) 
8.197813893662 


在 这 个 例子 中 ， 同 一 个 等 值 面 上 所 有 点 的 颜色 是 相同 的 。 因 为 等 值 面 上 的 标量 值 (流体 密 
度 ) 相 同 ， 而 对 等 值 面 进行 着 色 时 ， 缺 省 也 使 用 标量 值 。 有 时 候 我 们 希望 等 值 面 的 颜色 由 另外 的 
标量 值 决 定 。 下 面 的 程序 演示 了 如 何 使 用 别 的 标量 值 对 等 值 面 进行 着 色 ， 效 果 如 图 8-17 所 示 。 


plot3d = read data() 
plot3d.add_function(153) © 
plot3d.update() 

grid = plot3d.output.get_block(6) 


contours = tvtk.ContourFilter() 

contours.set_input_data(grid) 

contours.set_value(6，6.36) @ 

mapper = tvtk.PolyDataMapper(input_connection = contours.output_port， 
scalar_range = grid.point data.get_array(4).range, © 
scalar_mode = "use point field data") @ 

mapper.color_by_array_component("VelocityMagnitude", 8) © 

actor = tvtk.Actor(mapper = mapper) 

actor.property.opacity = 6.6 


outline_actor = make_outline(grid) 


win = ivtk_scene([actor, outline actor]) 
win.scene.isometric_view() 


@ 首 先 调用 PLOT3DReader 对 象 的 add_function0 方 法 ， 为 每 个 点 添加 一 组 标量 值 。 所 增加 
的 新 数组 名 为 "VelocityMagnitude"， 表 示 每 点 所 对 应 的 速度 大 小 ， 下 面 将 使 用 此 数组 对 等 值 面 进 
行 着 色 。 

grid.point_data.get_array_name(4) 

"VelocityMagnitude 


@ 调 用 ContourFilter 对 象 的 set_value0， 创 建 一 个 值 为 0.3 的 等 值 面 。@ 设 置 映射 器 的 标量 
范围 属性 scalar_range， 将 它 设置 为 新 增加 的 数组 的 取 值 范围 。@scalar_mode 属性 决定 映射 器 所 
使 用 的 标量 数据 类 型 ， 这 里 的 "use_point_field_data" 表 示 使 用 点 数据 中 的 数组 。 它 有 如 下 几 种 
选择 : 

@ "default": 使 用 point_data.scalars， 如 果 不 存 在 就 使 用 cell_data.scalars。 

®@ "use_point data": 使 用 point_data.scalars。 

@ "use_cell_data": 使 用 cell_data.scalars。 


® "use_point_field_data": 使 用 point_data 中 的 某 个 数组 ， 具 体 的 数组 需要 另外 指定 。 

® "use_cell_field_data": 使 用 cell_data 中 的 某 个 数组 ， 具 体 的 数组 需要 另外 指定 。 

@ 通 过 color_by_array_component0 指 定 着 色 所 使 用 的 数据 。 它 的 第 一 个 参数 是 数组 名 , 第 二 
个 参数 是 从 数组 中 选择 的 列 。 由 于 "VelocityMagnitude" 是 一 个 标量 数组 ， 它 只 有 一 列 数据 ， 因 此 
第 二 个 参数 为 0。 如 果 第 一 个 参数 是 矢量 数组 名 ， 例 如 "Velocity"， 那 么 可 以 通过 第 二 个 参数 选 
择 矢量 数组 中 的 不 同 分 量 。 请 读者 修改 这 两 个 参数 ， 使 用 其 他 的 数据 对 等 值 面 进行 着 色 。 


图 8-17 在 等 值 面 上 用 颜色 显示 其 他 标量 值 
8.4.3 流 线 


在 前 面 的 实例 中 , 我 们 使 用 切面 和 等 值 面 对 流 体 的 密度 分 布 进行 了 可 视 化 。 空 间 中 每 一 点 
的 密度 可 以 用 一 个 数值 (标量 ) 表 示 ， 因 此 可 以 将 密度 分 布 理 解 为 一 个 标量 场 。 而 流体 在 每 一 点 
的 速度 是 一 个 矢量 ， 因 此 速度 的 分 布 情况 需要 使 用 矢量 场 来 描述 。 本 节 介绍 如 何 使 用 随机 散布 
的 矢量 箭头 和 流 线 对 矢量 场 进行 可 视 化 ， 效 果 如 图 8-18 所 示 。 由 此 图 可 知 ， 整 个 场景 由 4 个 实 
体 构成 : 外 框 、 随 机 散布 的 矢量 箭头 、 表 示 流 线 源 的 球体 以 及 流 线 。 
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A scpy2.tvtk.example_streamline: 使 用 流 线 和 箭头 可 视 化 矢量 场 。 


下 面 的 程序 创建 随机 散布 的 矢量 箭头 。 这 些 箭头 的 起 始点 是 数据 集中 的 点 的 坐标 ， 箭 头 的 


方向 由 点 所 对 应 的 矢量 决定 ， 而 箭头 的 大 小 和 颜色 则 由 点 所 对 应 的 标量 决定 。 本 例 中 ， 箭 头 的 
方向 表示 速度 的 方向 ， 而 大 小 和 颜色 则 表示 密度 。 箭 头 越 大 表示 该 点 的 标量 值 (密度 ) 越 大 ， 箭 
头 的 颜色 也 同时 表示 标量 值 的 大 小 ， 红 色 对 应 的 标量 值 最 小 ， 而 蓝 色 对 应 的 标量 值 最 大 。 


# 矢量 箭头 
mask = tvtk.MaskPoints(random_mode=True，on_ratio=56) © 
mask.set_input_data(grid) 


arrow_source = tvtk.ArrowSource() @ 

arrows = tvtk.Glyph3D(input_connection = mask.output port, © 
scale_factor=2/np.max(grid.point_data.scalars.to_array())) 

arrows.set_source_connection(arrow_source.output_port) 

arrows_mapper = tvtk.PolyDataMapper(input_connection = arrows.output_port， 
scalar_range = grid.point_data.scalars.range) 

arrows_actor = tvtk.Actor(mapper = arrows_mapper) 


@ 由 于 原始 数据 集中 的 点 数 很 多 ， 如 果 在 所 有 点 的 位 置 都 描绘 箭头 ， 将 十 分 耗 时 并 . 


日 无 法 


区 分 众多 的 箭头 。 因 此 首先 使 用 MaskPoints 对 象 对 数据 集中 的 数据 进行 随机 选取 ， 某 点 被 选中 
的 概率 为 150, 即 每 50 个 点 选择 一 个 点 。 下面 的 程序 查看 MaskPoints 对 象 输出 的 数据 类 型 和 点 


数 ， 以 及 每 个 点 所 对 应 的 数据 : 


print grid.number_of _points 

mask.update() 

print type(mask.output) 

print mask.output.number_of_points 

print mask.output.point_data.number_of_arrays 
47625 

<class 'tvtk.tvtk_classes.poly_data.PolyData'> 
S52 

SS 


@ArrowSource 对象 创建 表示 第 头 的 PolyData 数 据 集 。@Glyph3D 对 象 对 箭头 数据 进行 复制 ， 


在 masks 输出 的 PolyData 数据 集 的 每 个 点 之 上 都 放置 一 个 箭头 。 箭 头 的 方向 、 长 度 和 颜 


点 对 应 的 矢量 和 标量 数据 决定 。scale_factor 参数 是 所 有 箭头 共同 的 缩放 系数 ， 这 里 使 
的 最 大 值 对 缩放 系数 进行 正规 化 。Glyph3D 对 象 可 以 对 任意 的 PolyData 数据 进行 复制 
[以 尝试 将 箭头 数据 源 ArowSource 改 为 圆锥 数据 源 ConeSource。 


二 | 竖 


由 于 TVTK 没有 提供 source_connection 属性 , 因此 只 能 通过 set source_connection0) 设 置 
Glyph3D 对 象 的 输入 。 


arrows.update() 

print arrow_source.output.number_of_points # 一 个 箭头 有 31 个 点 

print arrows.output.number_of_points # 箭头 被 复制 了 N 份 ， 因 此 有 N*31 个 点 
2 

29512 


还 可 以 使 用 流 线 直 观 地 观察 矢量 场 。 流 线 上 每 一 点 的 切线 方向 就 是 矢量 场 在 该 点 的 方向 。 
下 面 是 显示 流 线 的 程序 : 


center = grid.center 


sphere = tvtk.SphereSource( © 可 
center=(2, center[1], center[2]), radius=2, 3 
phi_resolution=6, theta_resolution=6) 与 

sphere_mapper = tvtk.PolyDataMapper(input_connection=sphere.output_port) 局 

sphere_actor = tvtk.Actor(mapper=sphere_mapper) 加 

sphere_actor.property. set( 数 
representation = "wireframe", color=(6,8,06)) 和 

# 流 线 从 

streamer = tvtk.StreamLine( @ 六 


step_length=6.6661， 
integration_direction="forward", 
integrator=tvtk.RungeKutta4()) © 
streamer.set_input_data(grid) 
streamer. set_source_connection(sphere.output_port) 


tube = tvtk.TubeFilter( @ 
input_connection=streamer.output_port， 
radius=6.65， 
number_of_sides=6, 
vary_radius="vary_radius_by_scalar") 


tube_mapper = tvtk.PolyDataMapper( 
input_connection=tube.output_port， 
scalar_range=grid.point_data.scalars.range) 

tube_actor = tvtk.Actor(mapper=tube_mapper) 

tube_actor.property.backface_culling = True 
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outline_actor = make_outline(grid) 
win = ivtk_scene([outline_actor，sphere_actor，tube_actor，arrows_actor]) 
win.scene.isometric_view() 


@SphereSource 对 象 创建 表示 球体 的 PolyData 数据 集 。 通 过 center 和 radius 属性 指定 球体 的 
球 心 位 置 和 半径 .phi_resolution 和 theta_resolution 属性 指定 球体 的 经 度 和 纬度 方向 上 的 等 分 次 数 ， 


值 越 大 输出 的 PolyData 数据 集 越 接 近 球体 。 


@StreamLine 对 象 在 矢量 场 中 计算 流 线 。 通 过 set_source_connection0 设 置 决定 流 线 起 点 的 数 
据 集 的 输入 端口 ， 这 里 使 用 SphereSource 对 象 输出 的 球面 上 的 点 作为 流 线 的 起 点 。 如 果 通 过 


start_position 属性 设置 起 
间隔 ， 此 值 越 小 流 线 上 
性 决定 流 线 的 计算 方 应 


始点 的 坐标 ， 则 只 计算 一 条 流 线 。step_length 属性 决定 了 流 线 上 的 点 的 
的 点 越 多 ， 流 线 越 平滑 ， 计 算 所 需 的 时 间 也 越 长 。integration_direction 属 
， 值 可 以 为 backward'、forward' 和 'integrate_both_directions'。'forward' 表 示 


计算 起 点 之 后 的 流 线 ，'backward 表 示 计 算 起 点 之 前 的 流 线 。@ 流 线 的 计算 需要 使 用 由 integrator 
属性 指定 的 数值 积分 算法 ， 这 里 使 用 RungeKutta4， 它 是 一 个 4 阶 Runge-Kutta 积分 算法 。 


StreamLine 对 象 的 输出 是 一 个 PolyData 数据 集 ， 它 的 所 有 单元 都 是 表示 流 线 的 路 径 ， 因 此 


边 (line) 数 为 23， 而 面 数 


streamer.update() 
print streamer.outp 
print streamer.outp 
print streamer.outp 
5528 

9 

23 


为 0: 


ut .number_of_points 
ut .number_of_polys 
ut .number_of_lines 


@ 使 用 TubeFilter 对 象 可 以 将 流 线 路 径 转换 为 有 粗细 的 圆 管 。radius 属性 为 圆 管 的 粗细 ， 而 
number_of_side 属性 指定 圆 管 的 切面 圆 的 边 数 。 圆 管 的 粗细 可 以 根据 点 的 数据 发 生变 化 ， 这 里 


使 用 "vary_radius_by_scal 


ar" 指 定 圆 管 的 粗细 由 标量 (密度 ) 决 定 。 


TubeFilter 对 象 的 输出 也 是 PolyData 数据 集 , 它 由 众多 的 面 构成 , 但 是 它 的 number_of_polys 


属性 却 等 于 0: 


tube.update() 


tube.output.number_of_polys 


9 


这 里 为 了 节省 内 存 


空间 和 计算 时 间 ， PolyData 对 象 使 用 TriangleStrip 对 象 表示 三 角 面 。 一 个 


TriangleStrip 对 象 由 一 组 点 构成 。 每 连续 的 三 个 点 构成 一 个 三 角形 面 : 


print tube.output.number_of_strips 
t = tube.output.get_cel1(6) 


print type(t) 

print t.number_of_ points 

138 

<class 'tvtk.tvtk_classes.triangle_strip.TriangleStrip'> 
498 


上 面 的 例子 中 ， 箭 头 的 大 小 和 颜色 、 流 线 的 粗细 和 颜色 所 表示 的 是 流体 的 密度 。 有 时 候 我 
们 希望 用 这 些 可 视 化 元 素 表 示 矢 量 的 长 度 ， 即 流体 的 速度 的 大 小 。 我 们 可 以 直接 计算 vectors 
数组 中 各 个 矢量 的 长 度 ， 并 且 将 其 写 入 数据 集 的 scalars 数组 中 。 例 如 ， 在 读 入 数据 之 后 如 下 添 
加 两 行程 序 : 


point data = grid.point data 
point_data.scalars = np.sqrt(np.sum(point_data.vectors.to array()**2, axis=-1)) 


或 者 使 用 TVTK 库 中 的 VectorNorm。 它 计算 输入 数据 的 vectors 数组 中 各 个 矢量 的 长 度 ， 
并 且 保存 到 scalars 数组 中 。 只 需 将 之 前 程序 中 的 grid 修改 为 norm.output_port 即 可 : 


grid 是 数据 集 对 象 ， 而 vnorm 为 Algorithm 对 象 。 为 了 让 程序 兼容 这 两 种 不 同 的 输入 类 
如 型 ， 可 以 使 用 tvtk.common.configure_input()。 


vnorm = tvtk.VectorNorm() 
vnorm.set_input_data(grid) 


8.4.4 ”计算 圆柱 的 相 贯 线 


两 个 互相 垂直 的 圆 管 相 交会 产生 8 条 相 贯 线 ， 下 面 我 们 用 PolyData 的 布尔 运算 功能 生成 两 
个 互相 垂直 的 圆 管 ， 并 计算 它们 的 相 贯 线 。 程 序 的 运行 结果 如 图 8-19 所 示 : 


图 8-19 两 个 下 相 垂直 的 圆 管 ( 左 )， 打 通 圆 管 并 显示 相 贯 线 ( 右 ) 
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(全 scpy2.tvtkexample tube intersection: 计算 两 个 圆 管 的 相 贯 线 ， 可 通过 界面 中 的 滑 块 控 
[pvp 


件 修 改 圆 管 的 内 径 和 外 径 。 


首先 定义 make_tbe0 函 数 ， 它 创建 指定 方向 和 大 小 的 圆 管 ， 生 成 圆 管 的 流水 线 如 图 8-20 


所 示 。 


CylinderSource 


(outer) siengeriter 


transform 


Transform TransformFilter 


BooleanOperationPclyDataFiltel 
(dfference) 


transform 


Transform TransformFilter 


CylinderSource 


(inner) | Tiangteriter 


def 
cs1 


图 8-20 生成 圆 管 的 流水 线 


make_tube(height，radius，resolution，rx=8，ry=8，rz=6) : 

= tvtk.CylinderSource(height=height, radius=radius[8], resolution=resolution) © 
cs2= tvtk.CylinderSource(height=height+8.1, radius=radius[1], resolution=resolution) 
trianglel = tvtk.TriangleFilter(input_connection=cs1.output_port) @ 

triangle2 = tvtk.TriangleFilter(input_connection=cs2.output_port) 

tr = tvtk.Transform() 

tr.rotate_x(rx) 

tr.rotate_y(ry) 

tr.rotate z(rz) 


tf1 = tvtk.TransformFilter(transform=tr, input_connection=trianglel.output port) © 


tf2 = tvtk.TransformFilter(transform=tr, input_connection=triangle2.output_port) 
bf = tvtk.Boolean0perationPolyDataFilter() @ 

bf.operation = "difference" 

bf.set_input_connection(8, tf1.output_port) 

bf.set_input_connection(1, tf2.0utput_port) 

m = tvtk.PolyDataMapper(input_connection=bf.output_port, scalar visibility=False) 
a = tvtk.Actor(mapper=m) 

a.property.color = 8.7, 0.7, 0.7 

return bf, a, tf1, tf2 


tubel1, tubel actor, tubel outer, tubel inner = make tube(5, [1, 8.8], 32) 
tube2, tube2 actor, tube2 outer, tube2 inner = make_ tube(5, [8.7, 68.55], 32, rx=90) 


win 


win. 


= ivtk_scene([tubel actor, tube2 actor]) 
scene.isometric view() 


而 的 程序 创建 了 两 个 表示 圆 管 的 PolyData 对 象 mbel 和 也 


圆柱 PolyData 对 象 : tubel_outer、tubel_inner、tube2_outer 和 


be2， 


以 及 构成 这 两 个 圆 管 的 外 
tube2_inner。 


移 以 及 缩放 操作 
4 差分 布尔 运算 ， 得 到 表示 圆 管 apa 对 象 。 为 了 让 差分 布尔 运算 能 下 


LE 休 
建 圆 柱 时 让 细 圆 柱 比 粗 加 


换 为 完全 由 三 角形 面 构成 的 PolyData 对 象 。 


主 略 微 长 一 些 。 由 于 布尔 运算 需要 


set_jnput_connection0 来 指定 每 个 输入 端口 [ 的 输入 对 象 。 


] 


| 图 8-19( 左 ) 可 以 看 到 两 个 圆 管 互相 并 不 是 相通 的 。 下 面 我 们 使 


交 的 部 分 打通 。 这 相当 于 用 圆 管 1 减 去 圆 管 2 的 内 圆柱 ， 以 及 于 
这 个 操作 仍然 使 用 BooleanOperationPolyDataFilter 来 完成 。 为 了 高 


用 IntersectionPolyDataFilter 计算 圆 管 1 和 圆 管 


像素 : 


$2 的 相交 线 ， 图 8-21 和 


@ 使 用 CylinderSource 创建 两 个 圆柱 面 , 它 的 output 属性 是 表示 圆柱 面 的 PolyData 对 象 。 该 
Data 对 象 中 的 每 个 面 都 是 四 边 形 ,为 了 后 续 的 布尔 运算 能 正确 运行 , @ 需 要 通过 TriangleFilter 
将 其 转 
人 @ 使 用 TransformFilter 对 PolyData 对 象 进行 旋转 ， 它 的 transform 属性 是 
内 Transform 对 象 。 @ 最 后 使 用 BooleanOperationPolyDataFilter 计算 粗 圆柱 体 与 细 


一 个 描述 旋转 、 偏 


和 作 ， 在 


两 个 输入 对 象 ， 因 此 需要 调用 


月 布 尔 运算 将 两 个 圆 管 相 


j 圆 管 2 减 去 圆 管 1 的 内 圆柱 。 


高 亮 显示 


两 个 圆 管 相交 的 曲线 ， 


是 这 部 分 的 流水 线 : 


图 8-21 计算 相 贯 线 的 流水 线 


面 是 具体 的 代码 ，@ 为 了 清晰 显示 相 贯 线 ， 将 颜色 设置 


def difference(pd1, pd2): 


de 


3 


bf = tvtk.Boolean0perationPolyDataFilter() 
bf.operation = "difference" 

bf.set_input_connection(8, pd1.output_port) 
bf.set_input_connection(1，pd2.output_port) 


为 红色 ， 


并 将 线 宽 设 置 为 两 个 


m = tvtk.PolyDataMapper(input_connection=bf.output_port, scalar visibility=False) 


a = tvtk.Actor(mapper=m) 
return bf, a 


intersection(pd1, pd2, color=(1.0, 8, 08), width=2.0): 
ipd = tvtk.IntersectionPolyDataFilter() 
ipd.set_input_connection(86，pd1.output_port) 
ipd.set_input_connection(1，pd2.output_port) 
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m = tvtk.PolyDataMapper(input_connection=ipd.output_port) 
a = tvtk.Actor(mapper=m) 

a.property.diffuse color = 1.6, 8, 6.0 
a.property.line width = 2.6 

return ipd, a 


tubel_hole, tubel hole actor = difference(tubel1l, tube2 inner) 
tube2_hole, tube2 hole actor = difference(tube2, tubel inner) 
intersecting line, intersecting line actor = intersection(tubel, tube2) 


tube1_hole_actor.property.opacity = 60.8 
tube2_hole actor.property.opacity = 60.8 
tube1_hole_actor.property.color = 0.5, 60.5, 0.5 
tube2_hole_actor.property.color = 8.5, 6.5, .5 


win = ivtk_scene([tubel hole actor, tube2 hole actor, intersecting line actor]) 
win.scene.isometric_view() 


intersecting_line 是 由 1624 条 线段 构成 的 PolyData 对 象 ， 如 果 希 望 获得 8 条 表示 相 贯 线 的 曲 
线 ， 还 需要 做 进一步 处 理 。 


print intersecting_line.output.points.number_of_points 
print intersecting line.output.lines.number_of _cells 
1624 

1656 


IntersectionPolyDataFilter 输出 的 PolyData 对 象 中 ， 有 一 些 点 的 坐标 非常 接近 , 它们 应 该 是 
个 点 , 但 是 由 于 计算 误差 , 在 PolyData 中 被 表示 为 多 个 点 。 下 面 用 scipy.spatial.distance 中 的 pdistO 
和 squareformO 计 算 所 有 点 之 间 的 距离 ， 并 显示 最 小 的 10 个 距离 : 


from scipy.spatial import distance 


dist = distance.squareform( distance.pdist(intersecting_line.output.points.to_array()) ) 

dist[np.diag_indices(dist.shape[6])] 

dist = dist.ravel() 

print np.sort(dist)[:16] 

[1.66932541e-66 ”1.66932541e-66 ”1.66893665e-66 ”1.66893665e-66 
3.23677365e-66 “3.23677365e-66 ”3.23677365e-66 “3.23677365e-66 
3.72555819e-66 3.72555819e-86] 


np.inf 


下 面 使 用 ClearPolyData 对 PolyData 进行 清理 工作 ，tolerance_is_absolute 为 True 时 ， 使 用 绝 
对 阅 值 absolute_tolerance 对 坐标 点 进行 合并 ， 可 以 看 到 合并 之 后 的 点 数 减 少 了 : 


cpd = tvtk.CleanPolyData(tolerance_is_absolute=True， 
absolute_tolerance=1le-5， 
input_connection=intersecting_line.output_port) 

cpd.update() 

cpd.output .points.number_of _ points 

1578 


下 面 的 connect_line0 根 据 PolyDatalines 属性 中 的 信息 , 将 线段 合并 成 曲线 , 并 使 用 matplotlib 
的 三 维 绘图 功能 绘制 合并 之 后 的 8 条 曲线 ， 如 图 8-22 所 示 。 请 感 兴趣 的 读者 自行 分 析 
connect_line0 的 算法 ， 这 里 就 不 多 做 解释 了 。 


from collections import defaultdict 


def connect lines(lines): 
edges = defaultdict(set) 
for _, s, e jn lines.to array().reshape(-1, 3).tolist(): 


edges[s].add(e) = 
edges[e].add(s) 人 

三 

while True: 总 
if not edges: 4 
break 

poly = [edges.iterkeys().next()] 的 
while True: 园 

e = poly[-1] oj 
neighbours = edges[e] 视 


if not neighbours: 
break 
n = neighbours.pop() 
try: 
edges[n].remove(e) 
except: 
pass 
poly.append(n) 
yield poly 
edges = {k:v for k,v in edges.iteritems() if v} 


from mpl_toolkits.mplot3d import Axes3D 


fig = pl.figure(figsize=(5, 5)) 
ax = fig.gca(projection="3d') 


points = cpd.output.points.to_array() 
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for line in connect_lines(cpd.output.lines): 
x, y, z = points[line].T 


ax.plot(x, y, z, label="'parametric curve ') 


ax.auto_scale xyz([-1, 1], [-1, 1], [-1, 1]) 


1.01.0 
图 8-22 用 matplotlib 绘制 提取 出 的 相 贯 线 


8.S 用 mlab 快速 绘图 


A 与 本 节 内 容 对 应 的 Notebook 为 : 08-tvtk_mayavi/tvtk_mayavi-600-mlab.ipyn。 


最 新 版 本 的 Mayavi 4.4.0 中 存在 GUI 操作 不 更 新 3D 场景 的 问题 ， 可 以 通过 本 书 提供 
的 scipytvtk fix_mayavi bugs() 修 复 这 些 问题 。 


虽然 VTK 可 视 化 软件 包 的 功能 很 强大 ，Python 的 TVTK 库 也 很 方便 简洁 ， 但 是 用 这 些 工 
有 具 快速 编写 实用 的 三 维 可 视 化 程序 仍然 是 非常 具有 挑战 性 的 。 因 此 基于 VTK 开发 出 了 许多 可 
视 化 软件 ， 例 如 ParaView、VTKDesigner2、Mayavi2 等 。 
Mayavi2 完全 用 Python 编写 ， 它 不 但 是 一 个 方便 实用 的 可 视 化 软件 ， 而 且 可 以 用 Python 编 
写 扩展 ， 嵌 入 到 用 户 编写 的 Python 程序 中 ， 并 且 提 供 了 面向 脚本 的 mlab 模块 ， 以 方便 用 户 快 
速 绘制 三 维 图 。 和 matplotib 的 pylab 一 样 , Mayavi 的 mlab 模块 提供 了 方便 快捷 的 三 维 绘制 函数 。 
只 要 将 数据 准备 好 ， 通 常 只 需要 调用 一 次 mlab 模块 的 绘图 函数 ， 就 可 以 看 到 数据 的 三 维 显示 


效果 ， 非 常 适合 在 Python 中 交互 使 用 。 
8.5.1 ”点 和 线 


三 维 空间 中 独立 的 点 使 用 point3d0 绘 制 , 而 plot3d0 则 将 一 系列 的 点 连接 起 来 绘制 三 维 曲线 。 


它们 可 以 有 3 个 或 4 个 数组 参数 。 这 些 数组 的 形状 完全 相同 ,前 3 个 参数 x、y、z 对 应 点 的 X、 
Y 和 乙 轴 的 坐标 值 ; 而 如 果 有 第 4 个 参数 s, 它 指定 每 个 坐标 点 所 对 应 的 数值 (标量 值 )。 point3d0 
的 第 4 个 参数 还 可 以 是 通过 坐标 计算 标量 值 的 函数 。 下 面 是 这 两 个 函数 的 调用 格式 : 


plot3d(x, y, z, ...) 
plot3d(x，y，z，s，...) #s 为 保存 每 个 点 对 应 的 标量 值 的 数组 


points3d(x, y, z...) 
points3d(x,，y，z，s，...) #s 为 保存 每 个 点 对 应 的 标量 值 的 数组 
points3d(x，y，z，f，...) #f 为 计算 每 个 点 对 应 的 标量 值 的 函数 


X\ yz 参数 决定 了 三 维 空间 中 每 个 点 的 坐标 , 而 每 个 点 所 对 应 的 数值 则 可 以 用 点 的 颜色 、 
大 小 、 线 的 粗细 等 直观 地 表现 。 

每 个 函数 还 有 许多 关键 字 参 数 用 于 设置 各 种 绘图 属性 ， 例 如 点 的 形状 、 线 的 宽度 、 颜 色 、 
颜色 映射 等 。 所 有 这 些 参数 能 够 设置 的 绘图 属性 ， 都 可 以 在 显示 出 图 形 窗口 之 后 ， 在 流水 线 对 
话 框 中 交互 式 地 修改 。 因 此 本 书 不 对 这 些 参数 进行 详细 讲解 ， 读 者 可 以 阅读 函数 文档 ， 了 解 每 
个 关键 字 参 数 的 含义 。 

我 们 以 plot3d0 绘 制 洛 伦 茨 吸引 子 轨迹 为 例 ， 介 绍 如 何 绘制 三 维 空间 中 的 曲线 ， 并 且 使 用 
流水 线 对 话 框 对 图 形 的 各 种 属性 进行 调整 。 下 面 是 绘制 洛 伦 茨 吸引 子 的 程序 , 算法 请 参照 SciPy 
的 相关 章节 ， 缺 省 的 绘图 结果 如 图 8-23 所 示 。 


P| 国 国 加 可 回回 轧 | 旱 水 四 | 国志 


图 8-23 plot3d0 绘 制 的 洛 伦 茨 吸 引子 ， 曲 线 使 用 很 细 的 圆 管 绘制 


from scipy.integrate import odeint 
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def lorenz(w, t, p, r, b): 
x,y,Z=W 
return np.array([p*(y-x), x*(r-z)-y, x*y-b*z]) 


t = np.arange(0, 306, 080.61) 
trackl = odeint(lorenz, (8.0, 1.60, 0.0), t, args=(10.0, 28.0, 3.0)) © 


from mayavi import mlab 

xX, Y, Z = track1.T 

mlab.plot3d(X, Y, Z, t, tube radius=0.2) © 
mlab. show() 


@ 使 用 odeint0 得 到 的 轨迹 数据 trackl 是 一 个 二 维 数组 ， 它 的 第 0 轴 的 长 度 是 轨迹 的 点 数 ， 
第 1 轴 的 长 度 为 3， 分 别 为 轨迹 上 每 点 的 X、Y、Z 轴 坐 标 。 

@ 将 tackl 拆 分 为 三 个 一 维 数组 之 后 ， 调 用 plot3d0 绘 制 轨迹 曲线 。 这 里 用 时 间 数 组 { 作 为 
标量 值 数组 ， 因 此 轨迹 上 每 个 点 所 对 应 的 标量 值 就 是 到 达 此 点 的 时 间 。tube_radius 参数 设置 曲 
线 的 粗细 ， 曲 线 实际 上 采用 极 细 的 圆 管 绘制 。 

在 三 维 场景 中 可 以 使 用 键盘 和 鼠标 对 场景 照相 机 或 场景 中 的 物体 进行 操作 : 

e 照相 机 模式 ， 此 模式 为 缺 省 模式 ， 在 此 模式 下 所 有 的 鼠标 操作 都 是 针对 照相 机 进行 ， 

按 “C” 键 切换 到 此 模式 。 

e 角色 模式 ， 通 过 鼠标 可 以 修改 场景 中 物体 的 方向 和 位 置 ， 按 “A” 键 切换 到 此 模式 。 

在 照相 机 模式 下 : 

e 旋转 场景 鼠标 左 键 拖 动 或 用 键盘 的 方向 键 。 

e 平移 场景 ， 鼠标 中 键 拖 动 或 按 住 Shift 键 并 使 用 左 键 拖 动 ， 或 者 使 用 Shift+ 方 向 键 。 

e 缩放 场景 : 鼠标 右键 上 下 拖 动 或 使 用 “+” 和 “-” 按 键 。 

e 滚动 照相 机 : 按 住 Cu 按键 并 用 左 键 拖 动 。 

窗口 中 的 工具 栏 还 提供 了 从 坐标 轴 的 6 个 方向 观察 场景 、 等 角 投影 、 切 换 平 行 透视 和 成 角 
透视 等 功能 的 按钮 。 

8.5.2 ”Mayavi 的 流水 线 


工具 栏 中 最 左边 的 图 标 是 打开 Mayavi pipeline 对 话 框 的 按钮 ， 单 击 此 按钮 将 弹出 如 图 8-24 
所 示 的 对 话 框 。 左 侧 用 树 状 控 件 显示 了 构成 场景 的 流水 线 。 此 流水 线 是 Mayavi 在 TVTK 的 流 
水 线 之 上 进行 包装 的 结果 。 选 中 流水 线 中 的 某 个 对 象 之 后 ， 窗 口 右边 的 部 分 将 显示 设置 选中 对 
象 用 的 界面 。 让 我 们 看 看 plot3d0 生 成 的 流水 线 中 都 有 哪些 对 象 ， 如 图 8-24 所 示 : 
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图 8-24 plot3d0 绘 制 的 洛 伦 茨 吸 引子 的 流水 线 对 话 杠 


Mayavi Scene: 处 于 树 的 最 顶层 的 对 象 表示 场景 。 在 其 配置 界面 中 可 以 设置 场景 的 背景 和 
前 景色 、 场 景 中 的 灯光 以 及 其 他 一 些 选 项 。 例 如 ， 将 背景 色 “Background” 改 为 灰色 ， 将 前 景 


色 “Foreground” 改 为 白色 。 也 可 以 用 下 面 的 程序 获取 场景 对 象 的 背景 色 : 


s = mlab.gcf() # 首先 获得 当前 的 场景 

print s 

print s.scene.background 
<mayavi.core.scene.Scene object at 86x13A329F6> 
(8.5，6.5，6.5) 


LineSource: 线 数据 源 。 在 其 配置 界面 中 ， 第 一 项 为 每 个 点 所 对 应 的 标量 数据 的 名 称 ， 在 
本 例 中 只 有 一 个 名 为 scalars 的 标量 数据 ， 它 就 是 我 们 传递 给 plot3d0 的 第 4 个 数组 : 表示 轨迹 中 


每 点 的 时 间 的 数组 t。 下 面 的 语句 从 场景 中 获取 LineSource 对 象 ， 并 且 获 取 其 中 的 各 种 数据 : 
source = s.children[8] # 获得 场景 的 第 一 个 子 节点 ， 也 就 是 Linesource 


print repr(source) 

print source.name # 节点 的 名 字 ， 也 就 流水 线 中 显示 的 文字 

print repr(source.data.points) # LineSource 中 的 坐标 点 

print repr(source.data.point_data.scalars) # 每 个 点 所 对 应 的 标量 数组 
<mayavi.sources.vtk_data_source.VTKDataSource object at 6x13A66CF6> 
LineSource 


[(86.6，1.6，6.6)，...，(9.621556891686468726，1.6938271986766417，26.31711497616887) ] ， 


length = 3666 
[8.6，...，29.99]，length = 3666 


Stripper: 根据 内 部 filter 对 象 的 maximum_length 属性 对 线 数据 源 进行 分 段 处 理 。 在 本 例 中 
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b 


输入 的 线 数据 源 有 3000 个 点 ， 而 maximum_length 属性 为 1000， 即 每 1000 个 点 将 对 应 一 条 线 。 
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>t 


此 stripper 对 象 输出 的 PolyData 对 象 中 有 3 条 线 : 


stripper = source.children[6] 

print stripper.filter.maximum length 

print stripper.outputs[8].number_of points 

print repr(stripper.outputs[6]) 

print stripper.outputs[6].number_ of lines 

1666 

3666 

<tvtk.tvtk_classes.poly_data.PolyData object at 6x6CD527B6> 
3 


Tube: 将 输入 的 PolyData 数据 中 的 每 条 线 转 换 为 表示 三 维 圆 管 的 PolyData 数据 。 它 的 配置 
界面 中 有 许多 参数 可 以 改变 生成 圆 管 的 方式 。 例 如 : 将 "Vary radius" 设 置 为 "vary_radius_by_scalar"， 
则 圆 管 的 粗细 由 每 个 点 对 应 的 标量 值 决定 。 而 加 粗 的 比例 则 由 "Radius factor" 参 数 决定 ， 我 们 将 
其 设置 为 3, 于 是 此 圆 管 最 粗 处 (终点 ) 的 半径 是 最 细 处 (起 点 ) 的 3 倍 。 下 面 的 语句 获得 Tube 对 象 ， 
并 查看 输出 对 象 的 类 型 : 

tube = stripper.children[8] # 获得 Tube 对 象 

print repr(tube.outputs[8]) # tube 的 输出 是 一 个 PolyData 对 象 ， 它 是 一 个 三 维 圆 管 

<tvtk.tvtk_classes.poly_data.PolyData object at 6x6CD52216> 


Colors and legends: 在 其 配置 界面 中 的 "Scalar LUT" 选 项 卡 中 可 以 设置 将 标量 值 转换 为 颜色 
的 查询 表 (Look UpTable)。 例如， 将 "Lut mode" 改 为 Blues， 于 是 场景 中 的 圆 管 完成 了 从 白色 到 深 
蓝 色 的 渐变 。 勾 选 "Show legend" 选 择 框 ， 在 场景 中 将 添加 一 个 颜色 条 来 显示 颜色 和 标量 值 之 间 
的 关系 。 也 可 以 通过 下 面 的 程序 修改 这 两 个 选项 ; 

manager = tube.children[6] 


manager.scalar_lut_manager.lut_mode =“Blues 
manager.scalar_lut_manager.show_legend = True 


Surface: 它 将 Tube 所 输出 的 PolyData 数据 转换 为 最 终 在 场景 中 显示 的 三 维 实体 。 通 过 其 
配置 界面 的 "Actor" 选 项 卡 ， 可 以 对 实体 进行 配置 。 例 如 ， 将 "Representation 选择 为 "wireframe"， 
并 将 "Line width" 设 置 为 0， 则 实体 采用 细 线 框 模型 显示 。 将 "Opacity" 设 置 为 0.6， 则 实体 变 为 半 
透明 状态 。 也 可 以 通过 下 面 的 程序 修改 这 两 个 配置 : 


surface = manager.children[6] 
surface.actor.property.representation = “wireframe 
surface.actor.property.opacity = 6.6 


修改 之 后 的 场景 如 图 8-25 所 示 。 


图 8-25 在 流水 线 对 话 框 中 修改 了 许多 配置 之 后 的 洛 伦 茨 吸引 子 轨迹 


下 面 是 用 程序 配置 这 些 属性 的 步骤: 

(1) 先 获 得 场景 对 象 ， 例 如 用 mlab.gcf0。 

(3) 通过 每 个 对 象 的 children 属性 ， 在 流水 线 中 找到 需要 修改 的 对 象 。 

G3) 当 其 配置 窗口 有 多 个 选项 卡 或 多 个 配置 分 组 框 时 ， 意 味 着 其 属性 可 能 需要 一 级 一 级 地 
获得 。 对 象 的 属性 名 和 界面 上 的 文字 之 间 有 很 简单 的 转换 关系 : 首 字 变 大 写 、 下 划 线 变 空格 。 
例如 : Surface 对 象 的 Actor 选项 卡 中 的 Property 分 组 框 中 的 "Line width" 选 项， 用 程序 描述 就 是 : 


surface.actor.property.line_width 
2.0 


Mayavi 还 提供 了 脚本 录制 功能 ， 以 方便 我 们 编写 配置 各 种 属性 的 程序 。 单 击 流水 线 对 话 框 
的 工具 栏 中 的 红色 圆 形 图 标 即 可 开始 脚本 录制 ， 并 且 打 开 一 个 脚本 对 话 框 。 之 后 的 界面 配置 操 
作 ， 都 会 被 记录 到 此 脚本 对 话 框 中 。 


8.5.3 ”二 维 图 像 的 可 视 化 


三 维 空间 中 的 曲面 可 以 用 surf0 绘 制 ， 它 实际 上 是 将 二 维 图 像 (数组 ) 绘 制 成 三 维 的 曲面 ， 用 
] 面 的 高 度 表 示 图 像 中 每 点 的 值 。 下 面 的 程序 绘制 图 8-26 所 示 的 曲面 。 


x, y = np.ogrid[-2:2:26j，-2:2:26j] @ 
z= Xx*np.exp( - x**2 - y**2) ©@ 


face = mlab.surf(x, y, z, warp_scale=2) © 
axes = mlab.axes(xlabel="x', ylabel='y', zlabel='z', color=(90, 6, 8)) @ 
outline = mlab.outline(face, color=(80, 8, 9)) 
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图 8-26 surf0 绘 制 的 曲面 及 流水 线 对 话 框 


@ 先 通过 ogrid 对 象 计算 两 个 形状 分 别 为 (20, 1) 和 (1, 20) 的 数组 x 和 y。@ 然 后 通过 广播 运算 ， 
计算 出 由 x 和 y 构 成 的 等 距 网 格 上 每 点 的 函数 值 z， 它 是 一 个 形状 为 (20, 20) 的 数组 。@ 接 着 调 
mlabsurf0， 将 数组 z 绘制 成 三 维 空间 中 的 曲面 ， 所 绘制 的 曲面 在 X-Y 平面 上 的 投影 是 一 个 
等 距离 网 格 。@ 最 后 通过 mlab.axes0 和 mlab.outline0， 分 别 在 三 维 场景 中 添加 坐标 轴 和 曲面 区 域 
的 外 框 。 需 要 注意 的 是 ， 与 matplotlib 相反 ， 在 Mayavi 中 二 维 数组 的 第 0 轴 表 示 X 轴 ， 第 1 轴 
表示 立轴 。 

仔细 观察 曲面 的 颜色 就 会 发 现 颜色 和 曲面 的 高 度 有 一 一 对 应 的 关系 ， 曲 面 上 的 点 越 高 ， 颜 
色 越 红 ， 越 低 则 颜色 越 蓝 。 打 开 流 水 线 对 话 框 ， 可 以 看 到 数据 源 是 一 个 Aray2DSource 对 象 。 
它 的 输出 是 一 个 TVTK 的 ImageData 对 象 : 


data = mlab.gcf().children[@] 

img = data.outputs[6] 

img 

<tvtk.tvtk_classes.image_data.ImageData at 6x13a243f6> 


ImageData 对 象 是 一 个 表示 三 维 图 像 的 数据 集 。 在 ImageData 对 和 象 中 , 实际 上 不 保存 空间 中 
每 点 的 坐标 , 而 是 通过 origin、spacing 和 dimensions 等 属性 计算 出 一 个 三 维 空间 中 的 等 距离 网 格 ， 
网 格 中 的 每 个 点 所 对 应 的 标量 值 保存 在 point_data.scalars 中 ， 这 些 值 决定 了 曲面 的 高 度 和 颜色 。 


print img.origin # X、Y、Z 轴 的 起 点 

print img.spacing # X、Y、Z 轴 上 点 的 间隔 

print img.dimensions # X、Y、Z 轴 上 点 的 个 数 

print repr(img.point_data.scalars) # 每 个 点 所 对 应 的 标量 值 


[| 

[ 8.21652632 8.21052632 1. 有 
[28 20 1 
[-8.06006706925255865，...，0.0600676925255865]，length = 466 


通过 上 面 的 分 析 可 以 看 出 ，surf0 的 功能 是 将 一 个 二 维 图 像 转 换 为 三 维 空间 中 的 曲面 。 因 此 
面 上 每 个 点 的 X、 立 轴 的 坐标 都 是 通过 网 格 配置 计算 出 来 的 。 
于 曲面 的 高 度 和 其 X-Y 平面 上 的 尺寸 可 能 相差 很 大 ， 因 此 流水 线 中 ， 在 Array2DSource 
对 象 的 下 面 是 一 个 WarpScalar 对 象 ， 它 将 输入 数据 沿 着 乙 轴 方 向 进行 缩放 ， 可 以 看 到 其 配置 面 
板 中 的 "Scale factor" 为 2， 它 是 由 surf0 的 warp_scale 参数 决定 的 。WarpScalar 对 象 的 输出 是 一 个 
PolyData 对 象 : 


data.children[8] .outputs[8] 
<tvtk.tvtk_classes.poly_data.PolyData at 8x14263726> 


流水 线 中 剩 下 的 对 象 请 读者 自己 研究 ,通过 研究 流水 线 可 以 了 解 Mayavi 内 部 的 组 织 构造 ， 
这 有 助 于 我 们 创建 自己 的 流水 线 以 对 复杂 的 数据 进行 可 视 化 。 

如 果 数 据 在 三 个 坐标 轴 上 的 范围 相差 很 大 ， 在 进行 可 视 化 时 需要 调整 坐标 轴 的 显示 比例 ， 
以 达到 更 好 的 可 视 化 效果 。 例 如 在 下 面 的 曲面 函数 中 ，X 轴 方向 需要 更 大 的 显示 范围 : 


x, y = np.ogrid[-16:16:166j，-1:1:166j] 
z = np.sin(S*((x/10)**2+y**2)) 


如 果 直 接 使 用 数据 的 范围 进行 显示 ， 效 果 如 图 827( 左 ) 所 示 ， 虽 然 可 以 很 直观 地 看 出 X 轴 
的 显示 范围 是 Y 轴 的 10 倍 ， 但 是 很 难 观察 曲面 的 一 些 细节 信息 。 


mlab. surf(x, y, z) 
mlab.axes() 


通过 surf0 的 extent 参 数 可 以 修改 坐标 轴 的 数据 范围 : 


mlab.surf(x, y, z, extent=(-1,1,-1,1,-0.5,0.5)) 
mlab.axes(nb_labels=5) 


extent 参数 是 一 个 有 6 个 元 素 的 序列 ,分别 指 定 X 轴 最 小 值 、X 轴 最 大 值 、Y 轴 最 小 值 、Y 
轴 最 大 值 、Z 轴 最 小 值 、 乙 轴 最 大 值 。 这 些 值 将 修改 数据 范围 ， 因 此 所 绘制 曲面 的 X、Y 轴 范 
围 相同 ， 而 曲面 在 Z 轴 上 的 高 度 是 X、Y 轴 范 围 的 一 半 ， 效 果 如 图 8-27( 中 ) 所 示 。 由 于 extent 
参数 所 改变 的 是 数据 的 范围 ， 因 此 坐标 轴 上 的 刻度 值 也 随 之 发 生变 化 。 为 了 解决 这 个 问题 ， 可 
六 给 axes0 传 递 ranges 参数 : 


mlab.surf(x, y, z, extent=(-1,1,-1,1,-0.5,0.5)) 
mlab.axes(ranges=(x.min(),x.max(),y.min(),y.max(),z.min(),z.max()), nb_labels=5) 
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ranges 参数 也 是 一 个 有 6 个 元 素 的 序列 ， 分 别 指定 三 个 坐标 轴 上 的 刻度 范围 ， 效 果 如 图 
8-27( 右 ) 所 示 。 


1.001.00 


图 827 修改 坐标 轴 的 显示 比例 


除 surt0 之 外 ，imshow0 和 contour_surf0 也 是 可 视 化 二 维 图 像 的 工具 。imshow0 将 二 维 图 像 
放 在 三 维 空间 中 显示 ， 它 与 将 surf0 的 warp_scale 参 数 设 置 为 0 的 效果 一 样 。 下 面 的 语句 将 二 维 
数组 z 用 imshow0 绘 制 成 图 ， 效 果 如 图 8-28( 左 ) 所 示 : 


x, y = np.ogrid[-2:2:26j，-2:2:26j] 
z= XxX* np.exp( - Xx**2 - y**2) 


mlab.imshow(x, y, z) 
mlab. show() 


而 contour_surf0 和 surf0 的 参数 类 似 ， 但 可 以 通过 contours 参数 指定 等 高 线 的 数目 或 者 等 高 
值 的 列表 。 下 面 的 语句 将 曲面 以 20 条 等 高 线 表示 ， 如 图 8-28( 右 ) 所 示 。 


mlab.contour_surf(x,y,Zz,warp_scale=2,contours=26) 


LA 


图 8-28 用 imshow 绘制 图 像 ( 左 )， 用 contour_surf 绘制 等 高 线 ( 右 ) 
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在 用 surf0 绘 制 曲面 之 后 ， 在 流水 线 对 话 框 中 对 Surface 对 象 进行 如 下 配置 ， 也 可 以 实现 和 
contour_surf0 一 样 的 效果 : 

e 在 "Contours" 选 项 卡 中 ， 勾 选 "Enable Contours"。 

@ 勾 选 "Auto contours" 选 项 ， 并 且 指 定 "Number of contours" 为 20， 这 样 会 自动 产生 20 条 
等 高 线 。 
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e 也 可 以 不 色 选 "Auto contours" 选 项 ， 然 后 手工 添加 等 高 线 。 
或 者 用 下 面 的 程序 设置 等 高 线 , 其 中 face 为 surf0 返 回 的 对 象 , 也 就 是 流水 线 中 的 Surface: 


face.enable_contours = True 
face.contour.number_of_contours = 26 


8.5.4 网 格 面 mesh 


如 果 需 要 绘制 更 复杂 的 三 维 曲面 ， 可 以 使 用 mesh0。 下 面 是 使 用 mesh0 绘 制 复杂 
序 ， 结 果 如 图 8-29 所 示 : 


三 


面 的 程 


from numpy import sin, cos 

dphi, dtheta = np.pi/88.6，np.pi/86.6 

phi, theta = np.mgrid[@:np.pi+dphi*1.5:dphi, 8@:2*np.pi+dtheta*1.5:dtheta] 

mo, ml, m2, m3, m4, m5, m6, m7 = 4,3,2,3,6,2,6,4 

r= sin(mO*phi)**m1 + Cos(m2*phi)**m3 + sin(mA*theta)**m5 + cos(m6*theta)**m7 © 
x = r*sin(phi)*cos(theta) © 

y = r*cos(phi) 

z = r*sin(phi)*sin(theta) 

s = mlab.mesh(x, y, z) © 


mlab. show() 


图 8-29 使 用 mesh 函数 绘制 的 3D 旋转 体 


人 @@ 程 序 中 调用 mesh0 绘 制 曲面 ， 它 和 surf0 类 似 ， 其 三 个 数组 参数 x、y、z 都 是 形状 相同 的 
二 维 数组 。 这 些 数 组 的 相同 下 标的 三 个 数值 组 成 曲面 上 某 点 的 三 维 坐标 。 点 之 间 的 连接 关系 ( 边 
和 面 ) 由 其 在 x、y、z 数 组 中 的 位 置 关 系 决定 。@ 曲 面 上 各 点 的 坐标 在 球 坐 标 系 中 计算 ，@ 然 后 
按照 坐标 转换 公式 将 球 坐标 系 转换 为 笛 卡 尔 坐标 系 。 

为 了 方便 读者 理解 mesh0 是 如 何 绘制 出 曲面 的 ， 下 面 通过 手工 输入 坐标 的 方式 ， 绘 制 如 图 
8-30 所 示 的 立方 体 表 面 的 一 部 分 : 
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x = [[-1,1,1,-1,-1], 


[-1,1,1,-1,-1]] 


y = [[-1,-1,-1,-1,-1], 
[ 1, 1,1,1,1]] 


z= [[1,1,-1,-1,1], 


[1,1,-1,-1,1]] 


box = mlab.mesh(x, y, z, representation="surface") 


mlab.axes(xlabel="'x', ylabel='y', zlabel='z') 


mlab.outline(box) 
mlab. show() 


数组 


】 ga 00 
图 830 组 成 立方 体 的 各 个 面 和 项 点 坐标 


传递 给 mesh0 的 三 个 数组 x、y、z 中 下 标 相同 的 三 个 数字 组 成 一 个 三 维 坐标 ， 因 此 这 三 个 


为 了 理解 方便 ， 图 


实际 描述 的 坐标 点 为 : 


[a,b, c,d,a], 
[e,f,g,h,e]] 


坐标 点 之 间 的 关系 由 


其 在 数组 中 的 位 置 决定 ， 


[(-1，-1，1)，(1，-1，1)，(1，-1，-1)，(-1，-1，-1)，(-1，-1，1)]， 
[(-1，1 1), (1, 1, 1), (1, 1, -1), (- 


1, 1, -1), (-1, 1, 1)] 


将 上 面 的 坐标 点 用 字母 表示 : 


因此 下 面 的 4 组 坐标 点 构成 4 个 正方 形 平面 ; 


a，b，f，e -> 项 面 
b，c，g, 下 -> 左面 
c，d，h，g -> 底面 
d，a，e，h -> 右面 


使 用 mesh0 可 以 很 方便 地 将 二 维 平面 上 的 曲线 绕 着 对 称 轴 进 行 旋转 得 到 旋转 面 。 下 面 的 程 
有 mesh0 绘 制 由 抛物 线 旋转 之 后 得 到 的 旋转 抛物 面 ， 如 图 8-31 所 示 。 


序 


图 8-31 用 mesh0 绘 制 旋 转 抛物 面 


rho，theta = np.mgrid[6:1:46j，6:2*np.pi:46j] © 
z= rho*rho © 


x = rho*np.cos(theta) © 
y = rho*np.sin(theta) 


s = mlab.mesh(x,y,z) 
mlab. show() 


旋转 面 上 点 的 坐标 很 容易 在 圆柱 坐标 系 (p, 中 z) 中 计算 。@ 首 先 在 (p, 中 ) 平 面 中 创建 一 个 
40 x 40 的 二 维 网 格 。@ 通 过 p 计 算出 抛物 面 上 每 点 的 高 度 z。 由 于 是 旋转 面 , 因此 高 度 和 中 无 关 。 
鼻 将 圆柱 坐标 系 转换 为 直角 坐标 系 ， 得 到 mesh0 所 需 的 三 个 数组 。 

还 可 以 使 用 mesh0 绘 制 出 surf0 所 绘制 的 曲面 。 下 面 是 用 mesh0 绘 制 曲面 的 程序 : 


x, y = np.mgrid[-2:2:26j，-2:2:26j] @ 
z= Xx* np.exp( - x**2 - y**2) 

人 

c=2*xx+y® 


pl = mlab.mesh(x, y, z, scalars=c) © 
mlab.axes(xlabel="'x', ylabel='y', zlabel='z') 
mlab.outline(p1) 

mlab.show() 
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@ 这 里 使 用 mgrid 对 象 产生 数组 x 和 y。 这 是 因为 用 mesh0 绘 制 曲面 时 ， 必 须 给 出 


点 的 坐标 值 ， 因 此 x 和 y 人 参数 不 能 是 ogrid 产生 的 数组 。 


上 每 


@ 为 了 演示 mesh0 绘 制 曲面 的 优点 ,我 们 另外 计算 一 个 二 维 数组 c, @ 并 且 把 它 传递 给 meshO 


的 scalars 参数 。 于 是 曲面 上 每 点 所 对 应 的 标量 值 将 使 用 数组 c 中 相应 下 标的 值 。 这 样 可 以 4 
数组 c 对 曲面 上 的 每 点 进行 着 色 ， 得 到 一 个 颜色 和 高 度 无 关 的 曲面 ， 它 能 比 surf0 所 绘制 的 曲面 


表达 更 多 的 信息 。 图 8-32 为 程序 绘制 结果 及 对 应 的 流水 线 。 
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图 8.32 用 mesh0 绘 制 高 度 和 颜色 不 同 的 曲面 
8.5.5 ”修改 和 创建 流水 线 


之 前 介绍 的 方法 用 surf0 绘 制 曲 面 : 


x, y = np.ogrid[-2:2:26j，-2:2:26j] 
z= Xx* np.exp( - x**2 - y**2) 


face = mlab.surf(x, y, z, warp_scale=2) 
mlab.axes(xlabel="'x', ylabel='y', zlabel='z') 
mlab.outline(face) 


我 们 需要 为 每 个 点 添加 一 个 新 的 标量 值 以 控制 它们 的 颜色 。 因 此 ， 首 先 获得 流水 线 中 


surfto0 也 可 以 绘制 高 度 和 颜色 不 同 的 曲面 ， 但 是 需要 对 流水 线 进行 一 些 改动 。 首 先 使 用 


Array2DSource 对 象 内 部 的 ImageData 对 象 。Array2DSource 实际 上 是 一 个 ArraySource 对 象 ， 通 


过 查看 其 源 代码 可 知 它 用 image_data 属性 保存 所 创建 的 InageData 对 象 。 


source = mlab.gcf().children[8] 
print source 

img = source.image_data 

print repr(img) 


<mayavi.sources.array_source.ArraySource object at 8x127FCE76> 
<tvtk.tvtk_classes.image_data.ImageData object at 6x127C5966> 


然后 给 img 添加 一 个 标量 数组 ， 并 且 命名 为 "color"。 注 意 数组 的 第 0 轴 对 应 X 轴 而 第 1 


轴 对 应 立轴 ， 因 此 需要 将 其 转 置 ， 而 ravel0 方 法 则 将 二 维 数组 变 为 一 维 数组 : 


Cc = 2*x + y # 表示 颜色 的 标量 数组 
array_id = img.point_data.add array(c.T.ravel()) 
img.point_data.get_array(array_id).name = "color" 


修改 了 ArraySource 对 象 的 输入 数据 之 后 ， 调 用 update0 计 算 其 输出 数据 ， 并 设置 


pipeline_changed 事件 属性 ， 让 流水 线 上 后 续 的 对 象 更 新 它们 的 输入 输出 。 


source.update() 
source.pipeline_changed = True 


如 果 读 者 对 为 什么 需要 转 置 有 疑问 ， 查 看 一 下 数组 z 在 ImageData 对 象 中 的 保存 顺序 ， 可 


以 看 出 二 维 数组 z 的 数据 是 按照 第 0 轴 、 第 1 轴 的 顺序 保存 在 scalars 数组 中 的 : 


print z[:3, :3] # 原始 的 二 维 数组 中 的 元 素 
# ImageData 中 的 标量 值 的 顺序 
print img.point_data.scalars.to_array()[:3] # 和 数组 z 的 第 8 列 的 数值 相同 
[[-8.86667693 -8.66148987 -8.96362777] 
[-8.66133364 -8.66296616 -8.96681578] 
[-8.66239635 -6.66536864 -6.61678724]] 
[-8.68667693 -8.66133364 -69.66239635] 


接 下 来 需要 在 流水 线 的 PolyDataNormals 和 Colors and legends 之 间 插 入 一 个 SetActiveAttibute 
对 象 ， 它 将 PolyDataNormals 的 输出 数据 中 名 为 "color" 的 标量 数组 设置 为 当前 标量 数组 。 


获得 PolyDataNormals 对 象 : 


normals = mlab.gcf().children[8].children[8].children[@] 


下 面 先 


通过 下 面 的 语句 可 以 看 到 ，PolyDataNormals 输出 的 PolyData 对 象 的 当前 标量 数组 为 数组 z: 


normals.outputs[6].point_data.scalars.to_array()[:3] 
array([-69.99967693，-6.66133364，-6.69239635]) 


接 下 来 是 插入 操作 。 首 先 获得 normals 的 下 一 级 对 象 ， 并 将 其 从 children 列表 中 


surf = normals.children[6] 
del normals.children[6] 


删除 


然后 调用 pipelineset_active_attibute0 ， 创 建 一 个 SetActiveAttribute 对 象 并 
normals.children 列表 。 通 过 point_scalars 参数 将 名 为 "color" 的 数组 设置 为 缺 省 标量 值 


将 划 


添加 进 
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不 同 的 数据 过 
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active_attr = mlab.pipeline.set_active_attribute(normals，point_scalars="color") 


最 后 将 surf 对象 添 加 进 SetActiveAttribute 对 象 的 子 列 表 : 


active_attr.children.append(surf) 


可 以 看 到 ， 现 在 PolyDataNormals 输出 的 PolyData 对 象 的 当前 标量 数组 已 经 变 为 数组 c 了 : 


normals.children[8] .outputs[8] .point_data.scalars.to_array()[:3] 
array([-6. ，-5.57894737，-5.15789474]) 


于 是 其 后 的 颜色 查询 表 将 使 用 数组 c 作 为 输入 ， 从 而 使 得 曲面 的 高 度 和 曲面 的 颜色 分 别 使 


PP Mayavi pipeline 
避 本 时 不 OO| BIO 


Pipelne 


行 描绘 。 最 终 的 绘图 效果 和 相应 的 流水 线 如 图 8-33 所 示 。 
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图 8-33 用 surf0 绘 制 高 度 和 颜色 不 同 的 曲面 


也 可 以 不 调用 surf0， 而 直接 创建 流水 线 中 的 每 个 对 象 。 完 整 的 程序 如 下 : 


src = mlab.pipeline.array2d_source(X，y，z) # 创 建 ArraySource 数据 源 


扣 系 加 color 数组 
image = src.image_data 


array_id = image.point_data.add_array(c.T.ravel()) 
image.point_data.get_array(array_id) .name = "color" 


src.update() # 更 新 数据 源 的 输出 


# 创建 流水 线 上 的 后 续 对 象 


warp = mlab.pipeline.warp_scalar(src，warp_scale=2.6) 
normals = mlab.pipeline.poly_data_normals(warp) 
active_attr = mlab.pipeline.set active attribute(normals, 


point_scalars="color") 


surf = mlab.pipeline.surface(active_attr) 
mlab.axes() 

mlab.outline() 

mlab.show() 


直接 创建 流水 线 需要 开发 者 对 Mayavi 的 流水 线 上 的 各 种 对 象 十 分 了 解 ， 因 此 建议 读者 首 
先 熟 悉 Mayavi 的 界面 操作 以 及 各 种 对 象 的 作用 ， 然 后 通过 录制 脚本 逐步 学 习 。 


8.5.6 标量 场 


前 面 介绍 了 如 何 对 一 维和 二 维 数据 进行 可 视 化 ， 下 面 看 看 三 维 数据 的 可 视 化 问题 。 最 简单 
的 三 维 数据 就 是 三 维 图 像 ， 可 以 用 一 个 三 维 数组 表示 。 图 像 中 每 个 点 的 三 维 坐标 都 由 它 在 数组 
中 的 下 标 决定 ， 而 每 个 点 对 应 的 标量 值 则 是 数组 中 对 应 元 素 的 值 。 这 种 三 维 图 像 可 以 用 来 描述 
标量 场 ， 例 如 房间 中 的 温度 分 布 、 材 料 的 密度 分 布 或 者 通过 X 射线 断层 成 像 (CD 技术 采集 到 的 
人 体 的 内 部 构造 。 

标量 场 有 三 种 可 视 化 方法 : 

。 等 值 面 ， 和 二 维 图 像 的 等 高 线 类 似 ， 用 标量 值 相等 的 曲面 ， 显 示 标 量 场 的 形态 。 

e 体 素 呈 像 : 利用 透明 度 和 颜色 直接 呈现 标量 场 的 形态 。 

e 切面 : 通过 对 标量 场 进 行 切面 处 理 ， 显 示 在 某 个 切面 上 场 的 形态 。 


(@, scpy2.tvtk.mlab_scalar field: 使 用 等 值 面 、 体 素 呈 像 和 切面 可 视 化 标量 场 。 


六 沙 相 浪 川 全 齐 闪 -eheW WMIAL 


我 们 用 下 面 的 程序 计算 一 个 有 两 个 点 电荷 的 电势 场 , 两 个 点 电荷 分 别 位 于 C1,0,0) 和 (1,0, 0) 
处 。 为 了 方便 显示 ， 只 计算 乙 轴 上 (2,0) 区 间 的 电势 场 ; 


x，y，z = np.ogrid[-2:2:46j，-2:2:46j，-2:6:46j] 
Ss = 2/np.sqrt((x-1)*#*#2 + y**2 + Z##2) + 1/np.sqrt((X+1)**2 + y**2 + Z**2) 


使 用 contour3d0 可 以 快速 绘制 此 电势 场 的 等 值 面 : 


surface = mlab.contour3d(s) 


缺 省 情况 下 ，contour3d0 绘 制 5 个 等 分 标量 值 范围 的 等 值 面 ， 它 不 能 很 好 地 显示 整个 电势 
场 的 结构 ， 因 此 用 下 面 的 语句 修改 等 值 面 的 范围 、 数 目 以 及 透明 度 等 属性 : 


surface.contour.maximum_contour = 15 # 等 值 面 的 上 限 值 为 15 
surface.contour.number_of_contours = 18 # 在 最 小 值 到 15 之 问 绘制 16 个 等 值 面 
surface.actor.property.opacity = 8.4 # 透明 度 为 @.4 


这 些 属性 也 可 以 通过 流水 线 对 话 框 来 修改 ， 程 序 的 绘制 结果 如 图 8-34 所 示 。 
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8-34 用 等 值 面 可 视 化 电势 场 


使 用 等 值 面 对 标量 场 进行 可 视 化 时 ， 外 面 的 等 值 面 可 能 会 完全 包含 内 部 的 等 值 面 观察 不 
到 内 部 的 状态 。 例如 在 本 例 中 , 如 果 将 乙 轴 的 计算 范围 改 为 -2,2), 并 且 不 设置 等 值 面 透明 度 ， 
则 无 论 绘制 多 少 个 等 值 面 ， 都 只 能 看 到 最 外 层 的 等 值 面 。 

体 素 呈 像 法 用 每 个 点 的 颜色 和 透明 度 对 整个 标量 场 进行 润色 ， 从 而 能 够 呈现 更 多 的 信息 。 
体 素 呈 像 没 有 对 应 的 函数 ， 需 要 我 们 自己 创建 流水 线 : 


field = mlab.pipeline.scalar_field(s) 
mlab.pipeline.volume(field) 
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此 程序 首先 通过 scalar_field0 在 流水 线 中 创建 一 个 标量 场 数据 源 , 然后 通过 volume0 将 此 数 
据 源 用 体 素 呈 像 进行 可 视 化 ， 效 果 如 图 8-35( 左 ) 所 示 。 
由 于 电势 强度 随 着 距离 的 平方 衰减 ,因此 整体 的 润色 效果 并 没有 突出 电势 强 的 部 分 。 为 了 
解决 这 个 问题 , 可 以 给 volume0 传 递 两 个 关键 字 参 数 : vmin 和 vmax。 它 们 指定 标量 值 的 润色 范 
围 ， 即 只 绘制 标量 值 在 vmin 到 vmax 之 间 的 区 域 : 


mlab.pipeline.volume(field, vmin=1.5, vmax=10) 


效果 如 图 8-35( 右 ) 所 示 ， 它 很 清楚 地 表现 出 了 电荷 附近 的 电势 情况 。 


本 


图 8-35 用 体 素 呈 像 可 视 化 电势 场 ，( 左 ) 缺 省 效果 ，( 右 ) 通 过 vmin 和 vmax 指定 电势 值 的 润色 范围 


还 可 以 使 用 切片 工具 观察 标量 场 在 某 个 平面 之 上 的 数据 ， 它 通常 和 其 他 的 工具 同时 使 用 ， 
并 且 可 以 直接 在 三 维 场景 中 交互 式 地 改变 平面 的 位 置 和 方向 。 下 面 的 程序 在 流水 线 中 添加 一 个 
标量 切面 ， 在 流水 线 中 它 是 "Colors and legends" 的 子 节点 。 通 过 plane_orientation 参数 指定 切面 的 
法 线 方向 为 了 轴 ， 即 切面 和 立轴 垂直 : 


cut = mlab.pipeline.scalar_cut_plane(field.children[6]，plane_orientation="y_axes") 
然后 通过 下 面 的 程序 设置 切面 工具 的 一 些 属性 : 


cut.enable_contours = True # 开启 等 高 线 显示 
cut.contour.number_of_contours = 49 # 等 高 线 的 数目 为 46 


切面 工具 的 效果 如 图 8-36 所 示 ， 图 中 还 显示 了 添加 切面 工具 之 后 的 流水 线 。 在 3D 场景 中 
可 以 对 切面 工具 进行 如 下 操作 : 

。 拖 动 切面 的 红色 外 框 修改 切面 的 位 置 。 

。 拖 动 切面 的 法 线 箭头 修改 切面 的 方向 。 

。 拖 动 法 线 和 切面 相交 的 灰色 圆 球 ， 改 变 切 面 的 旋转 中 心 。 


图 8.36 用 切面 工具 观察 电势 声 
8.5.7 ”矢量 场 


如 果 场 中 每 一 点 的 属性 都 可 以 用 矢量 代表 ， 那 么 这 个 场 就 是 一 个 矢量 场 。 对 于 三 维 空间 中 
的 场 ， 每 个 点 对 应 一 个 矢量 ， 它 由 X、Y、Z 轴 上 的 三 个 分 量 组 成 。 因 此 需要 3 个 三 维 数组 表 
示 矢 量 场 ， 这 些 数组 分 别 表 示 矢 量 在 三 个 轴 上 的 分 量 。 下 面 以 洛 伦 茨 吸引 子 为 例 ， 介 绍 对 矢量 
场 进行 可 视 化 的 一 些 基本 方法 。 


会 scpy2.tvtk mlab vector field: 使 用 失 量 箭头 、 切 片 、 等 梯度 面 和 流 线 显 示 失 量 场 。 
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下 面 的 程序 根据 洛 伦 获 吸 引子 的 公式 计算 出 Xx、Y、 忆 轴 三 个 方向 上 的 速度 分 量 u、 Vv、w: 


p, r, b = (19.6，28.6，3.6) 
x, y, z = np.mgrid[-17:26:26j，-21:28:26j，68:48:26j] 
Uy Vs, W = p*(y-X), x*(r-z)-y, x*y-b*z 


这 三 个 速度 分 量 构成 一 个 矢量 场 , 下 面 调用 quiver3d0 将 每 个 点 的 速度 矢量 用 一 个 箭头 表示 : 


vectors = mlab.quiver3d(x，y，z，u，v，w) 


效果 如 图 8-37( 左 ) 所 示 。 由 于 矢量 场 数据 的 网 格 过 密 ， 无 法 看 清 拓 量 场 的 内 部 结构 。 此 时 


[以 用 下 面 的 语句 修改 Vectors 对 象 的 一 些 属性 以 减少 箭头 的 数量 并 增加 箭头 的 长 度 ， 效 果 如 


8-37( 右 ) 所 示 。 


vectors.glyph.mask_input_points = True # 开启 使 用 部 分 数据 的 选项 
vectors.glyph.mask_points.on_ratio = 28 # 随机 选择 原始 数据 中 的 1/29 个 点 进行 描绘 
vectors.glyph.glyph.scale_factor = 5.8 # 设置 箭头 的 缩放 比例 


-MyaviScene2 
VectorScatter 
Colors and legends 
W Vectors 


图 8-37 用 矢量 箭头 可 视 化 矢量 场 


和 标量 场 的 切面 工具 一 样 ， 也 可 以 对 矢量 场 进行 切面 显示 ， 这 样 可 以 观察 矢量 场 在 某 个 切 
上 的 形态 : 


src = mlab.pipeline.vector_field(x, y, z, u, Vv, w) 

cut_plane = mlab.pipeline.vector_cut_plane(src, scale factor=3) 
cut_plane.glyph.mask_points.maximum number_of_points = 16666 
cut_plane.glyph.mask_points.on_ratio = 2 
cut_plane.glyph.mask_input_points = True 


还 可 以 通过 矢量 场 计 算 标 量 场 。 下 面 通过 extract vector norm0 在 流水 线 中 添加 一 个 


ExtractVectorNorm 对 象 ， 它 将 每 个 点 所 对 应 的 矢量 的 长 度 设置 为 此 点 的 标量 值 : 


magnitude = mlab.pipeline.extract_vector_norm(src) 
于 是 可 以 对 magnitude 表示 的 标量 场 绘制 等 值 面 : 
surface = mlab.pipeline.iso_surface(magnitude) 
surface.actor.property.opacity = 8.3 
图 8-38( 左 ) 是 矢量 切面 工具 和 等 模 值 面 的 显示 效果 。 下面 的 语句 分 别 获取 magnitude 所 输出 
的 ImageData 对象 的 标量 数组 和 矢量 数组 : 


print repr(magnitude.outputs[8] .point data.scalars) 

print repr(magnitude.outputs[8] .point_data.vectors) 

[579.71887267，. ..，662.195983887]，length = 8666 

[(-40.0, -455.0, 357.0), ..., (80.0, -428.0, 416.0)], length = 8666 

最 后 ， 还 可 以 使 用 How0 观 察 洛 伦 茨 吸引 子 的 轨迹 。 它 相当 于 绘制 矢量 场 的 场 线 ， 空 间 中 
每 点 所 对 应 的 矢量 等 于 过 此 点 的 场 线 的 切线 方向 : 


mlab.flow(x, y, z, u, Vv, w) 


图 8-38( 右 ) 是 使 用 how0 绘 制 的 洛 伦 茨 吸引 子 轨迹 。 以 图 中 球体 上 的 每 点 为 初始 点 计算 它们 
所 对 应 的 场 线 轨迹 。 流 水 线 中 的 Steamline 对 象 有 许多 配置 选项 ， 请 读者 自行 研究 。 
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图 8-38 用 矢量 切面 和 等 模 值 面 可 视 化 矢量 场 ( 左 )， 用 flow0 观 察 轨迹 ( 右 ) 


8.6 将 TVTIK 和 Mayavi 左 人 界面 


虽然 可 以 使 用 TVTK 和 Mayavi 提供 的 流水 线 控件 修改 流水 线 中 各 个 对 象 的 参数 ， 但 是 在 
完整 的 三 维 可 视 化 程序 中 ， 除 了 三 维 场景 之 外 ， 通 常 还 需要 许多 界面 控件 用 来 帮助 用 户 与 场景 
交互 。TVTK 和 Mayavi 都 是 建立 在 Trait 库 之 上 ， 因 此 可 以 很 方便 地 使 用 TraitsUI 界面 库 。 
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8.6.1 TVTK 场 景 的 嵌入 


在 下 面 的 例子 中 ,用户 可 以 通过 如 图 8.39 所 示 界面 中 的 两 个 滚动 条 控制 场景 中 国 管 的 内 外 
半径 。 


Radius1:0.0 > 1.0 0.6393 Radius2:0.0 © 1.0 0.4426 


[®) scpy2.tvtk.example_embed_tube: 演示 如 何 将 TVTK 场景 谈 入 TraitsUI 界面 ， 可 通过 界 
加 到 面 中 的 控件 调节 圆 管 的 内 径 和 外 径 。 


from traits.api import HasTraits, Instance, Range, on_trait_change 
from traitsui.api import View, Item, VGroup, HGroup, Controller 
from tvtk.api import tvtk 

from tvtk.pyface.scene_editor import SceneEditor 

from tvtk.pyface.scene import Scene 

from tvtk.pyface.scene_model import SceneModel 


class TVTKSceneController(Controller): 
def position(self, info): 
super(TVTKSceneController, self).position(info) 
self.model.plot() © 


class TubeDemoApp(HasTraits): 
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radius1 = Range(6，1.6，6.8) 
radius2 = Range(6，1.6，6.4) 

scene = Instance(SceneModel, ()) © 
view = View( 


def 


VGroup( 
Item(name="scene", editor=SceneEditor(scene_class=Scene)), © 
HGroup("radius1", "radius2"), 
show_labels=False), 

resizable=True，height=566，wjidth=566) 


plot(self): 
rl, r2 = min(self.radius1, self.radius2), max(self.radius1, self.radius2) 
self.cs1 = cs1 


tvtk.CylinderSource(height=1, radius=r2, resolution=32) 
self.cs2 = cs2 


tvtk.CylinderSource(height=1.1, radius=r1, resolution=32) 
trianglel = tvtk.TriangleFilter(input_connection=cs1.output_port) 
triangle2 = tvtk.TriangleFilter(input_connection=cs2.output_port) 

bf = tvtk.Boolean0perationPolyDataFilter() 

bf.operation = "difference”" 

bf.set_input_connection(8, trianglel1.output_port) 
bf.set_input_connection(1, triangle2.output_port) 

m = tvtk.PolyDataMapper(input_connection=bf.output_port, 


scalar_visibility=False) 


a = tvtk.Actor(mapper=m) 
a.property.color = 8.5, 8.5, 8.5 
self.scene.add_actors([a]) 
self.scene.background = 1, 1, 1 
self.scene.reset_zoom() 


@on_trait_change("radius1, radius2") @ 


def update_radius(self): 
self.csl.radius = max(self.radius1, self.radius2) 
self.cs2.radius = min(self.radius1, self.radius2) 
self.scene.render_window.render() 
if _name == ”main “": 
app = TubeDemoApp() 
app.configure_traits(handler=TVTKSceneController(app)) 


@SceneModel 表示 TVTK 的 场景 模型 ， 它 在 MVC 模式 中 属于 模型 对 象 ， 因 
定义 Trait 属性 scene。 


@scene 


UD 


属性 在 界面 中 将 呈现 为 一 个 TVTK 的 三 维 场景 , 因此 在 视图 的 Item 定义 中 ， 


此 程序 中 用 它 


editor 
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参数 指定 一 个 编辑 器 ， 让 它 能 正确 显示 scene 所 代表 的 模型 。SceneEditor 是 用 来 创建 场景 编辑 
器 的 工厂 类 ， 通 过 scene_class 参数 指定 真正 创建 场景 的 对 象 类 Scene。 
四 在 控制 器 的 position0 方 法 中 调用 模型 对 象 的 plot0 方 法 以 生成 场景 中 的 物体 。position0 方 
法 在 窗口 显示 之 前 调用 , 此 时 界面 中 的 所 有 控件 都 已 经 被 创建 , 因此 能 保证 plot0 中 的 语句 正确 
@ 通 过 on_trait_change0 响 应 属性 radiusl 和 radius2 的 变化 事件 ， 修 改 流水 线 最 上 层 的 两 个 
CylinderSource 对 象 的 radius 属性 ， 并 调用 self.scene.render_window.render0 以 刷新 场景 。 因此 当 用 
户 通过 界面 中 的 控件 修改 半径 时 ， 场 景 中 的 圆 管 会 同步 更 新 。 
8.6.2 ”Mayavi 场景 的 典 入 
下 面 看 一 个 Mayavi 场 景 嵌入 的 例子 。 用户 输 入 一 个 由 x、y、z 等 变量 构成 的 表达 式 ， 例 妇 
x*x+y*y+z*z。 程序 使 用 此 表达 式 计算 指定 范围 之 内 的 三 维 标量 场 , 并 且 添 加 等 值 面 和 切面 工具 
对 标量 场 进 行 可 视 化 。 等 值 面 的 数值 可 以 自动 计算 ， 也 可 以 通过 界面 上 的 滚动 条 配置 ， 而 切 下 
的 位 置 和 方向 则 可 以 直接 在 场景 中 用 鼠标 操作 。 程 序 的 界面 如 图 840 所 示 。 
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x*y*05 + np Sin( 2*x)y +y#z#20 v 
-6492 6492 050 


图 8-40 三 维 标量 场 观察 器 


@ scpy2.tvtk.example_embed _fieldviewer: 标量 场 观察 器 ， 演 示 如 何 将 Mayavi 的 场景 嵌入 
7 TraitsUI 界 面 。 
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import numpy as np 


from traits.api import HasTraits, Float, Int, Bool, Range, Str, Button, Instance 
from traitsui.api import View, HSplit, Item, VGroup, EnumEditor, RangeEditor 


from tvtk.pyface.scene_editor import SceneEditor 


from mayavi.tools.mlab_scene model import MlabSceneModel 


from mayavi.core.ui.mayavi_scene import MayaviScene 


from scpy2. 


tvtk import fix mayavi bugs 


fix_mayavi_bugs() 


class FieldViewer(HasTraits): 


# 三 个 轴 的 取 值 范围 


x@, x1 
ye, y1 
z0, 2z1 
points 


Float(-5), Float(5) 
Float(-5), Float(5) 
Float(-5), Float(5) 
Int(56) # 分 割 点 数 


autocontour = Bool(True) # 是 否 自动 计算 等 值 面 


ve, v1 


= Float(6.6)，Float(1.6) # 等 值 面 的 取 值 范围 


contour = Range("v8"，"v1"，6.5) # 等 值 面 的 值 
function = Str("x*x*6.5 + y*y + zyZ#y2.9") # 标量 场 函数 
function list = [ 

OD Os 

"x*y*0.5 + Np.sin(2*x)*y +y*z*2.0", 


"ety*z", 


"np.sin( (x*x+y*y)/z)" 


] 


plotbutton = Button(u" 描 面 ") 
scene = Instance(MlabSceneModel, ()) © 


view = 


View( 


HSplit( 


VGroup( 
2XOR XT yO Yl 20" 21 
Item('points'，1label=u" 点 数 ")， 
Item( 'autocontour' ，label=u" 自 动 等 值 ")， 
Item('plotbutton', show_label=False), 

)， 

VGroup( 
Item( "scene ， 

editor=SceneEditor(scene_class=MayaviScene), ©@ 
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resizable=True, 


)， 
width = 


height=366， 

width=356 
)， 
Item( 'function ， 

editor=EnumEditor(name="function_list', evaluate=lambda x:X))， 
Item( "contour ， 

editor=RangeEditor(format="%1 .2f", 

low name="ve", high_name="v1") 

), show_labels=False 


5606，resizable=True，title=u" 三 维 标量 场 观察 器 " 


def plotbutton fired(self): 
self.plot() 


def plot(self): 


# 产生 
Xx, y, Zz 


E 网 格 
= np.mgrid[ © 


self.x@:self.x1:1j*self.points, 
self.y6:self.y1:1j*xself.points， 
self.z0:self.z1:1j*self.points] 


# 根据 函数 计算 标量 场 的 值 


scalars 


= eval(self.function) ©@ 


self.scene.mlab.clf() # 清空 当前 场景 


# 绘制 等 值 平面 
g = self.scene.mlab.contour3d(x, y, z, scalars, contours=8, transparent=True) © 
g.contour.auto_contours = self.autocontour 


self.scene.mlab.axes(figure=self.scene.mayavi_scene) # 添加 坐标 轴 


# 添加 


-个 X-Y 的 切面 


s = self.scene.mlab.pipeline.scalar_cut plane(g) 
cutpoint = (self.x@+self.x1)/2, (self.y@+self.y1)/2, (self.z@+self.z1)/2 
Ss.implicit plane.normal = (8,6,1) # x cut 


Ss.implicit plane.origin = cutpoint 


self.g 


=g@ 


self.scalars = scalars 


# 计算 标量 场 的 值 的 范 


self.ve = np.min(scalars) 
self.v1 = np.max(scalars) 


def _contour_changed(self): @ 
if hasattr(self, "g"): 
if not self.g.contour.auto_contours: 
self.g.contour.contours = [self.contour] 


def _autocontour_ changed(self): @ 
if hasattr(self, "g"): 
self.g.contour.auto_contours = self.autocontour 
if not self.autocontour: 
self._contour_changed() 


if _name_ _ == '_ main_': 
app = FieldViewer() 


app.configure_traits() 


@MlabSceneModel 表示 Mayavi 的 场景 模型 ，@ 对 应 的 场景 控件 为 MayaviScene。 

用 户 单 击 描绘 按钮 之 后 , 将 调用 plot0 绘 图 。 @ 首 先 计算 三 维 标 量 场 的 网 格 , 这 里 使 用 mgrid 
快速 产生 三 维 网 格 ， 其 中 的 x0、x1、y0、yl、z0、z1l、points、function 等 都 是 模型 类 的 Trait 属 
性 , 可 以 通过 界面 上 的 控件 直接 修改 这 些 属性 的 值 。 @ 由 于 用 户 输入 的 三 元 函数 是 一 个 字符 串 ， 
这 里 用 eval0 对 字符 串 进行 求 值 ， 在 字符 串 中 可 以 使 用 x、y、z 等 局 域 变量 。 

@ 清 空当 前 场景 之 后 ， 调 用 mlab 模块 中 的 contour3d0、axes0、Ppipeline.scalar_cut_plane0 等 
在 场景 中 添加 等 值 面 、 坐 标 轴 和 切面 。mlab 模块 缺 省 对 当前 场景 进行 处 理 ， 如 果 应 用 程序 有 多 
个 场景 ， 就 需要 分 别 在 其 中 绘图 时 ， 通 过 figure 参数 指定 需要 进行 处 理 的 场景 ， 例 如 : 


mlab.axes(figure=self.scene.mayavi_scene) 


其 中 ,selfscene 是 MlabSceneModel 对 象 , mayavi_scene 属性 是 真正 表示 场景 的 Scene 对象。 

@ 最 后 更 新 模型 对 象 的 几 个 属性 ， 其 中 变量 g 是 contour3d0 的 返回 值 ， 它 表示 场景 中 的 等 
值 面 。self.v0 和 self.v1 是 标量 场 的 最 小 值 和 最 大 值 ， 它 们 设置 等 值 面 滚动 条 的 取 值 范围 。 

@ 当 与 contour 属性 相对 应 的 滚动 条 控件 (位 于 三 维 场景 的 下 方 ) 的 值 发 生变 化 时 ， 将 调 
_contour_changed() 方 法 修改 保存 等 值 面 数值 的 列表 。 

人 @ 当 “自动 等 值 ”选择 框 控件 改变 时 ,在 autocontour 属性 的 事件 监听 函数 _autocontour changed0 
中 改变 等 值 面 对 象 g 的 自动 等 值 面 选项 。 
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OpenCV 是 一 套 采 用 CAC++ 编 写 的 开源 跨 平 台 计算 机 视觉 库 ， 它 提供 了 两 套 Python 调用 接 

。 其 中 cv2 模块 是 针对 OpenCV2.xAPI 创 建 的 ， 它 直接 采用 Numpy 的 数组 对 象 表示 图 像 。 为 
a OpenCV 1.x API, 在 cv 模块 下 提供 了 原来 的 OpenCV 1xAPI 的 扩展 库 。 本 章 所 介绍 的 代 
人 码 均 采 用 如 下 方式 载 入 这 两 套 接口 的 模块 : 


import cv2 
from cv2 import cv 


9.1 图 像 的 输入 输出 


与 本 节 内 容 对 应 的 Notebook 为 : 09-opencv/opencv-100-input-output.ipynb。 


本 节 介 绍 如 何 使 用 图 像 的 输入 输出 函数 。 由 于 cv2 模块 中 的 函数 使 用 NumPy 数组 表示 图 
像 ， 因 此 很 容易 将 从 文件 中 读 入 的 图 像 数 据 传递 给 其 他 基于 NumPy 数组 的 扩展 库 ， 也 可 以 调 
用 cv2 提供 的 图 像 函 数 对 NumPy 数组 进行 处 理 。 


9.1.1 读 入 并 显示 图 像 


让 我 们 从 读 入 并 显示 一 幅 图 像 开 始 ， 在 IPython Notebook 中 运行 如 下 语句 ， 将 会 看 到 一 个 
显示 美女 “lena” 的 窗口 : 


filename = "lena.jpg" 

img = cv2.imread( filename ) © 

print type(img), img.shape, img.dtype 
cv2.namedWindow("demo1") © 
Cv2.imshow("demo1", img) © 
cv2.waitKkey(0) ©@ 

<type 'numpy.ndarray'> (512, 512, 3) uint8 


@ 首 先 imread0 从 指定 的 文件 路 径 读 入 图 像 数 据 ， 它 返回 的 是 一 个 元 素 类 型 为 uint8 的 三 维 
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数组 。imread0 支 持 许多 常用 的 图 像 格式 , 在 不 同 的 操作 系统 下 它 所 支持 的 图 像 格 式 可 能 有 所 不 
司 。 请 读者 阅读 C++ 文档 以 了 解 imread0 的 详细 信息 。 此 外 ，OpenCV 还 提供 了 imwrite0 来 将 图 
像 数 据 写 入 文件 。 
为 了 方便 用 户 快速 观察 图 像 处 理 的 效果 ，OpenCV 提供 了 一 些 简单 的 GUI 功能 。@@ 这 里 调 
namedWindow()， 创 建 一 个 名 为 "demo1" 的 窗口 ，@ 最 后 调用 imshow0 将 图 像 显 示 到 所 创建 的 
窗口 中 。imshow0 的 第 一 个 参数 是 窗口 名 ， 第 二 个 参数 是 表示 图 像 的 数组 。 如 果 第 一 个 参数 指 
定 的 窗口 不 存在 ，imshow0 会 自动 创建 一 个 新 窗口 ， 因 此 这 里 也 可 以 不 调用 namedWindow0。 


imread0 函 数 读 入 彩色 图 像 时 , 第 2 轴 按 照 蓝 、 绿 、 红 的 顺序 排列 。 这 种 顺序 与 matplotlib 
的 imshow0 元 数 所 需 的 三 通道 的 顺序 正好 相反 .因此 , 若 需 要 在 matplotlib 中 显示 图 像 ， 
则 需要 反 转 第 2 轴 : img[:, :,::-1]。 


@ 最 后 调用 cv.waitKey(O) 等 待 用 户 按 下 按键 ， 其 参数 为 等 待 的 毫秒 数 ，0 表示 永远 等 待 。 


在 IPython Notebook 显示 窗口 时 ，waitKey(0) 会 阻塞 运算 核 , 因此 无 法 再 运行 其 他 命令 。 
前 为 了 不 阻塞 运行 ， 可 以 在 新 的 线程 中 显示 窗口 ， 并 等 待 窗 口 关闭 ， 例 如 通过 本 书 提供 
的 %9bthread 魔法 命令 。 
下 面 的 程序 将 img 表示 的 彩色 图 像 通 过 cvtColor0 转 换 成 表示 黑白 图 像 的 二 维 数组 img_gray， 
其 第 二 个 参数 为 颜色 转换 常数 ， 所 有 的 颜色 转换 常数 均 以 COLOR_ 开 头 ， 可 以 使 用 IPython 的 
自动 完成 功能 或 者 本 书 提供 的 %search 魔法 命令 搜索 颜色 转换 常数 。BGR2GRAY 表示 将 BGR 
顺序 的 彩色 图 像 转换 为 灰 度 图 像 。 


cv2 模块 下 的 图 像 处 理 函 数 都 能 直接 对 NumPy 数组 进行 操作 ， 在 这 些 函 数 内 部 会 将 
NumPy 数 组 转换 成 OpenCV 中 表示 图 像 的 对 象 , 并 传递 给 实际 进行 运算 的 CUC++ 函 数 。 

终 虽 然 在 调用 cv2 模块 下 的 函数 时 会 进行 类 型 转换 , 但 是 NumPy 数 组 与 OpenCV 的 图 像 
对 象 能 够 共享 内 存 ， 因 此 并 不 会 太 浪费 内 存 和 CPU 运算 时 间 。 


img gray = cv2.cvtColor(img, cv2.COLOR_ BGR2GRAY) 
print img_gray.shape 
(512, 512) 


9.1.2 图像 类 型 
图 像 中 的 每 个 像素 点 可 能 有 多 个 通道 ,例如 用 单 通道 可 以 表示 灰 度 图 像 ， 而 用 红 绿 蓝 三 个 


通道 表示 彩色 图 像 ， 用 4 个 通道 表示 带 透 明度 (alpha) 的 彩色 图 像 。 通 道 的 数值 类 型 可 以 有 多 种 
选择 ， 例 如 通常 的 图 像 用 8 位 无 符号 整数 表示 ， 而 医学 图 像 可 能 会 用 16 位 整数 表示 图 像 数 据 。 


因此 像素 点 的 类 型 由 通道 数 和 数值 类 型 决定 。 


。 IMREAD_ANYCOLOR: 转换 成 8 比特 的 图 像 ， 通 道 数 
像 会 被 转换 成 三 通道 图 像 。 


IMREAD_COLOR: 转换 为 三 通道 、8 比特 的 图 像 。 
IMREAD_GRAYSCALE: 转换 成 单 通道 、8 比特 的 图 像 。 
。 IMREAD_UNCHANGED: 使 用 图 像 文件 的 通道 数 和 比特 数 。 


IMREAD_ANYDEPTH: 转换 为 单 通道 ， 比 特 数 由 图 像 文件 决定 。 


例如 前 面 的 img 是 一 个 三 维 数组 ， 形 状 为 (512, 512, 3)， 第 0 轴 为 图 像 的 高 ， 第 1 轴 为 图 像 
宽 ， 而 第 2 轴 为 图 像 的 通道 数 。 因 此 图 像 img 的 宽 为 512 个 像素 ， 高 为 512 个 像素 ， 有 3 个 
道 ， 即 图 像 中 的 每 个 像素 的 颜色 用 三 个 数值 表示 。 根 据 dtype 属性 可 知 ， 每 个 通道 的 颜色 值 
个 字 节 表示 。 而 灰 度 图 像 img_gray 则 是 一 个 二 维 数组 ， 因 为 它 只 有 一 个 通道 。 

在 前 面 的 例子 中 ， 没 有 设置 imread0 的 第 二 个 参数 ， 其 缺 省 值 为 IMREAD_ COLOR， 使 
该 参数 读 入 的 数据 是 三 通道 日 每 个 通道 8 比特 的 数组 。 第 二 个 参数 有 如 下 候选 值 ; 
则 图像 文件 决定 ， 注 意 4 通道 


珊 


表 9-1 显示 了 对 各 种 通道 数 和 比特 数 的 图 像 文件 使 用 上 述 标志 读 入 之 后 的 结果 ， 其 中 文件 


名 的 格式 为 : “通道 比特 数 通道 数 .png”。 


表 9-1 图 像 文件 读 入 后 的 结果 
IMREAD_ANYCOLOR| IMREAD_GRAYSCALE| 
uintl6、lch uintg、3ch uint8、 Ich 


int16、 int8、 3ch 


9.1.3 图像 输 出 
imwrite0 将 数组 编码 成 指定 的 图 像 格式 并 写 入 文件 ， 图 像 的 格式 


昌文 件 
些 格 式 有 额外 的 图 像 参 数 , 例如 JPEG 格式 的 文件 可 以 指定 画 质 参数 , 这 些 参数 都 以 IMWRITE_ 
头 。 图 像 参 数 以 [参数 名 , 参数 值 ， 参 数 名 , 参数 值 , …] 的 形式 传递 给 imwrite0 的 第 三 个 参数 。 


img = cv2.imread("lena.jpg") 
for quality in [986，66，36] : 
cv2.imwrite("lena_q{f:62d}.jpg".format(quality)，jimg， 
[cv2.IMWRITE_JPEG QUALITY, quality]) 


的 扩展 名 决定 。 某 


在 下 面 的 例子 中 ， 把 从 lenajpg 读 入 的 数据 以 各 种 画 质保 存 为 不 同 的 JPEG 文件 : 
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当 图 像 格 式 支 持 更 高 的 通道 比特 数 时, imwrite0 会 保持 图 像 数 组 的 精度 在 下 面 的 例子 中 
@ 通 过 NumPy 计算 出 下 面 的 二 元 函数 的 值 : 


Ge 一 ysinC 习 


{=— ry 


@ 然 后 调用 matplotlib 的 ScalarMappable0， 使 用 颜色 映射 表 jet 把 函数 值 转换 成 彩色 图 像 ， 
注意 OpenCV 的 所 有 输入 输出 函数 都 采用 蓝 绿 红 的 通道 顺序 。 由 于 to_rgba0 的 输出 为 元 素 值 在 
0 到 1 之 间 的 浮 点 数 数组 ， 因 此 还 需要 将 其 转换 成 整数 数组 。 


from matplotlib.cm import ScalarMappable 
from IPython.display import Image 


def func(x, y, a): 
return (x*x - y*y) * np.sin((x + y) / a) / (x*x + y*y) 


def make_image(x, y, a, dtype="uint8"): 
z= func(x, y, a) © 
img_rgba = ScalarMappable(cmap="jet").to_rgba(z) 
img = (img rgba[:, :, 2::-1] * np.iinfo(dtype).max).astype(dtype) ©@ 
return img 


下 面 调用 make_img0 创 建 8 比特 数组 img_8bit 和 16 比特 数组 img_16bit， 然 后 分 别 将 其 保 

存 为 JPEG 格式 和 PNG 格式 的 图 像 。 由 于 JPEG 图 像 只 支持 8 比特 通道 ， 因 此 将 img_16bit 保 存 
为 JPEG 图 像 时 会 出 现 问题 ， 请 读者 打开 img_l6bitjpg 来 查看 结果 。 而 PNG 格式 则 支持 8 比特 
和 16 比特 通道 , 如 果 读者 查看 img_16bitpng 的 文件 属性 , 就 会 看 到 它 的 “位 深度 ”为 48 比特 ， 
即 三 个 通道 并 且 每 个 通道 16 比特 。 

y, x = np.ogrid[-16:19:256j，-16:16:566j] 

img_8bit = make_image(x, y, 8.5, dtype="uint8") 

img_16bit = make_image(x, y, 0.5, dtype="uint16") 

Cv2.imwrite("img 8bit.jpg", img 8bit) 

Cv2.imwrite("img 16bit.jpg", img 16bit) 

Cv2.imwrite("img 8bit.png", img 8bit) 

Cv2.imwrite("img 16bit.png", img 16bit) 


9.1.4” 字 节 序 列 与 图 像 的 相互 转换 


imdecode0 可 以 把 图 像 文 件数 据 解码 成 图 像 数 组 ，imencode0 则 把 图 像 数 组 编码 成 图 像 文件 
数据 。 由 于 所 有 的 运算 都 在 内 存 中 完成 ， 因 此 可 以 使 用 这 两 个 函数 快速 压缩 和 解压 图 像 。 例 如 
把 从 摄像 头 读 入 的 图 像 编 码 之 后 通过 网 络 传递 给 其 他 计算 机 。 


在 下 面 的 例子 中 ，@ 首 先 通过 frombuffer0 创 建 一 个 和 字符 串 png_str 共享 内 存 的 数组 
png_data。@ 然 后 调用 imdecode0 将 PNG 文件 的 数据 解压 成 表示 图 像 的 数组 img。 自 最 后 调用 
imencode0 将 图 像 数组 压缩 成 JPG 数据 , 第 一 个 参数 是 表示 图 像 类 型 的 扩展 名 。 它 返 回 两 个 值 ， 
第 一 个 值 表示 压缩 是 否 成 功 , 第 二 个 值 为 压缩 之 后 的 数据 , 它 是 一 个 形状 为 (N, 1) 的 uint8 数组 。 
@ 调 用 数组 的 tobytes0 可 以 将 数组 中 的 二 进 制 数据 转换 成 字符 串 。 


with open("img_8bit.png", "rb") as f: 
png_str = f.read() 


png_data = np.frombuffer(png_str, np.uint8) © 

img = cv2.imdecode(png_data, cv2.IMREAD_UNCHANGED) © 
res, jpg_data = cv2.imencode(".jpg", img) © 

jpg_str = jpg_data.tobytes() © 


可 以 使 用 Image 将 编码 之 后 的 图 像 数据 嵌入 IPython Notebook 中 。 在 下 面 的 例子 中 ， 将 编 
码 之 后 的 字符 串 数据 传递 给 Image 的 data 参数 ，IPython 会 将 字符 串 数据 直接 嵌入 Notebook 中 ， 
然后 由 浏览 器 将 其 显示 为 图 像 ， 效 果 如 图 9-1 所 示 。 


res, jpg_data = cv2.imencode(".jpg", img_8bit) 
Image(data=jpg_data.tobytes()) 


图 9-1 使 用 Image 将 imencode0 编 码 的 结果 直接 嵌入 Notebook 中 


9.1.5 ”视频 输出 


通过 VideoWriter 类 可 以 将 多 个 NumPy 数组 写 入 视频 文件 。 下 面 的 例子 中 以 不 同 的 参数 调 
make_image0 并 将 结果 写 入 fmp4.avi 文件 。@@ 视 频 文件 的 编码 由 4 个 字符 的 FOURCC 对 象 指 
定 。@ 使 用 指定 的 fourcc 创建 VideoWriter 对 象 ， 其 第 3 个 参数 为 帧 频 ， 第 4 个 参数 为 视频 的 宽 
度 和 高 度 ， 最 后 的 参数 为 True 时 表示 视频 为 彩色 。@ 调 用 write0 方 法 将 表示 图 像 的 数组 写 入 视 
频 ，@ 最 后 调用 release0 方 法 关闭 视频 文件 。 


def test avi output(fn, fourcc): 
fourcc = cv.FOURCC(*fourcc) © 
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Ww = cv2.VideoWriter(fn, fourcc, 15, (5860, 250), True) © 
if not vww.isOpened(): 


return 


for a in np.linspace(8.1，2，166) : 
img = make_image(x, y, a) 
w.write(img) © 


w.release() @ 


test_avi_output ( "fmp4. avi", "fmp4") 


OpenCV 自 带 的 视频 编码 器 无 法 设置 码 率 之 类 的 编码 参数 ， 如 果 读 者 希望 控制 视频 文件 的 
画 质 ， 可 以 通过 fourcc 代码 指定 操作 系统 中 安装 的 VFW 编码 器 ， 这 些 编码 器 通常 都 带 有 配置 


界面 用 于 设置 编码 参数 。 为 了 获取 各 种 编码 器 对 应 的 fourcc 代码 ， 读 者 可 以 运行 本 书 提 供 的 
fourccpy， 将 弹出 一 个 如 图 9-2 所 示 的 “视频 压缩 ”对 话 框 : 


Zero Latency 


Rate control 


lbyx254 core 144 r2525bm 40bb568 
Semple Aspect Ratio 


[Sree pess -quentEer-besed DOP) = SAR width 


SAR heieht 


1 OHigh quality) 
厂 create stats fle 


涨 消 芝 着 半 闪 并 效 六 加 -和 ADU9dO 


| Debue 
Log level 


Disable all CPU optimizations 
Decoder & AVI Muxar 


libav 


Dissble decoder [4 


图 92 编码 选择 以 及 x264 编 码 设置 对 话 框 


在 对 话 框 中 选择 “x264vfw”, 然 后 单 击 “ 配 置 ”按钮 ,将 打开 图 中 显示 的 “x264vfw configuration” 
对 话 框 ， 勾 选 “Zero Latency”， 并 且 通 过 “Quantizer” 设 置 画 质 。 然 后 单 击 “OK” 和 “确定 ” 
按钮 完成 设置 。fourcc.py 将 输出 与 所 选择 的 编码 器 对 应 的 fourcc 代码 : x264。 


A scpy2.opencvfourcc: 查看 与 选中 的 视频 编码 器 对 应 的 fourcc 代码 。 


如 果 读 者 的 计算 机 中 没有 x264vfw 编码 器 ， 可 以 通过 下 面 的 网 址 下 载 安装 程序 : 


528 ， 


http:/sourceforge.netprojects/x264vfw/ 
x264vfw 编码 器 的 下 载 地 址 。 


x264vfw 编 码 器 的 配置 保存 在 注册 表 的 HKEY_CURRENT_USERNSoftware\GNU\X264 路 径 下 。 
本 书 提供 了 set_quantizer0 来 设置 其 编码 画 质 , 读者 可 以 仿照 该 程序 ,根据 需要 修改 其 他 项 的 值 。 
下 面 的 程序 输出 不 同 的 画 质 选 项 所 得 到 的 视频 文件 大 小 : 


from scpy2.opencv.x264_settings import set_quantizer 
from os import path 


for quantizer in [1，19，26，36，46] : 

set_quantizer(quantizer) 

fn = "x264_q{:82d}.avi".format(quantizer) 

test_avi output(fn, "x264") 

fsize = path.getsize(fn) 

print "quantizer = {:82d}, size = {:87d} bytes".format(quantizer, fsize) 
quantizer = 681, size = 5686272 bytes 
quantizer = 10, size = 2466912 bytes 
quantizer = 20, size = 9932864 bytes 
quantizer = 30, size = 6396288 bytes 
quantizer = 40, size = 8189952 bytes 


9.1.6 ”视频 输入 


VideoCapture 类 用 于 从 视频 文件 或 视频 设备 读 入 图 像 。 在 下 面 的 例子 中 ， 使 用 它 从 视频 文 
件 读 入 相关 的 属性 和 帧 。@get0 方 法 获得 指定 的 属性 ， 所 有 视频 相关 的 属性 名 都 在 cv 模块 中 以 
CV_CAP_PROP 开头 。 这 里 读 入 视频 的 帧 频 、 总 帧 数 、 像 素 宽 和 高 。 思 调用 read0 方 法 读 入 一 
帧 图 像 ， 它 返回 两 个 值 : 表示 是 否 正 确 获 得 图 像 的 布尔 值 和 表示 图 像 的 数组 。 正 常 读 入 一 帧 图 
像 之 后 ， 当 前 帧 自动 递增 。@ 还 可 以 通过 set0 方 法 设置 当前 帧 ， 从 而 直接 读 取 视 频 中 指定 位 置 
的 图 像 。 


Video = cv2.VideoCapture("x264_q16.avi") 

print "FPS:", video.get(cv.CV_CAP_ PROP_ FPS) © 

print "FRAMES:", video.get(cv.CV_CAP_PROP_FRAME_COUNT) 

print "WIDTH:", video.get(cv.CV_CAP_PROP_FRAME_WIDTH) 

print "HEIGHT:", video.get(cv.CV_CAP_PROP_FRAME_HEIGHT) 
print "CURRENT FRAME:", video.get(cv.CV_CAP_PROP_POS_FRAMES) 
res, frame@ = video.read() © 

print "CURRENT FRAME:", video.get(cv.CV_CAP_PROP_POS_FRAMES) 
video.set(cv.CV_CAP_PROP_POS_FRAMES, 50) © 
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print "CURRENT FRAME:"，video.get(cv.CV_CAP_PROP_POS_FRAMES) 
res，frame56 = video.read() 

print "CURRENT FRAME:"，video.get(cv.CV_CAP_PROP_POS_FRAMES) 
Video.release() 

FPS: 15.9 

FRAMES: 166.6 

WIDTH: 566.6 

HEIGHT: 256.6 

CURRENT FRAME: 8.6 

CURRENT FRAME: 1.6 

CURRENT FRAME: 56.6 

CURRENT FRAME: 51.6 


当 传递 给 VideoCapture 的 参数 是 整数 时 ， 将 打开 该 整数 对 应 的 视频 设备 。 下 面 的 程序 从 笔 


者 的 笔记 本 电脑 自 带 的 摄像 头 读 取 一 帧 图 像 : 


camera = cvV2.VideoCapture(6) 
res，frame = camera.read() 
camera.release() 

print res，frame.shape 

True (486，646，3) 


9.2 图 像 处 理 


A 与 本 节 内 容 对 应 的 Notebook 为 : 09-opencv/opencv-200-imgprocess.ipynb。 


OpenCV 的 图 像 处 理 功能 十 分 丰富 ， 本 节 以 二 维 卷 积 、 形 态 学 图 像 处 理 、 颜 色 填充 、 去 瑕 
疲 等 为 例 简要 地 介绍 OpenCy 的 图 像 处 理 功 能 。 希望 读者 通过 这 些 实例 举一反三 ， 能 通过 阅读 


OpenCV 的 文档 尝试 更 多 的 图 像 处 理 功 能 。 
9.2.1 二 维 卷 积 


图 像 处 理 中 最 基本 的 算法 就 是 将 图 像 和 某 个 卷 积 核 进行 卷 积 , 使 用 不 同 的 卷 积 核 可 以 得 到 


各 种 不 同 的 图 像 处 理 效果 。OpenCV 提供 了 filter2D0 来 完成 图 像 的 卷 积 运算 ， 调 


filter2D(src, ddepth, kernel[, dst[, anchor[, delta[, borderType]]]]) 


方式 如 下 : 


中 sre 参数 是 原始 图 像 ，dst 参数 是 目标 图 像 。 若 省 略 dst 参数 ， 将 创造 一 个 新 的 数组 来 


保存 图 像 数据 。ddepth 参数 用 于 指定 目标 图 像 的 每 个 通道 的 数据 类 型 ， 负 数 表示 


其 数据 类 型 和 


原始 图 像 相同 。kemel 参数 设置 卷 积 核 ， 它 将 与 原始 图 像 的 每 个 通道 进行 卷 积 计算 ， 并 将 结果 
存储 到 目标 图 像 的 对 应 通道 中 。anchor 参数 指定 卷 积 核 的 锚 点 位 置 ， 当 它 为 默认 值 (-1, -D 时 ， 
以 卷 积 核 的 中 心 为 锚 点 。delta 参数 指定 在 将 计算 结果 存储 到 dst 中 之 前 对 数值 的 偏 移 量 。 
filter2DO 的 卷 积 运算 过 程 如 下 : 
(1) 对 于 图 像 sre 中 的 每 个 像素 点 (x,y)， 让 它 和 卷 积 核 的 锚 点 对 齐 
(2) 对 于 图 像 ste 中 与 卷 积 核 重 县 的 部 分 ， 计 算 像 素 值 和 卷 积 核 和 4 信条 职 
G) 图 像 dst 中 的 像素 点 (x,y) 的 值 为 上 面 所 有 乘积 的 总 和 。 
当 卷 积 核 的 尺寸 很 大 时 ， 上 述 方法 的 运算 速度 将 会 很 慢 。 因 此 对 于 较 大 的 卷 积 核 ， 
fiter2D0 将 使 用 离散 傅立叶 变换 相关 的 算法 进行 卷 积 运算 。 
下 面 的 程序 演示 了 使 用 不 同 卷 积 核对 图 像 进行 处 理 之 后 的 效果 ， 如 图 9-3 所 示 。 


src = Cv2.imread("lena.jpg") 


kernels = [ 
(u" 低 通 滤波 器 ",np.array([[1， 1, 1],[1, 2, 1],[1, 1, 1]])*6.1), 


(u" 高 通 滤波 器 ",np.array([[8.9，-1, 8],[-1, 5, -1], [8, -1, 8]]))， 
(u" 边 缘 检测 ",np.array([[-1.8，-1,-1],[-1, 8, -1],[-1, -1,，-1]])) 
] 
index = 9 


fig, axes = pl.subplots(1, 3, figsize=(12, 4.3)) 
for ax, (name, kernel) in zip(axes, kernels): 
dst = cv2.filter2D(src, -1, kernel) 
# 由 于 matplotlib 的 颜色 顺序 和 OpenCV 的 顺序 相反 
ax.imshow(dst[:,:,::-1]) 
ax.set_title(name) 
ax.axis("off") 
fig.subplots_adjust(8.62, 80, 86.98, 1, 80.02, 0) 


低 通 滤波 器 高 通 滤波 器 


图 93 使 用 filter2D0 制 作 的 各 种 图 像 处 理 效果 
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A scpy2.opencvfilter2d_demo: 可 通过 图 形 界 面 自 定义 阁 积 核 ， 并 实时 查看 处 理 结果 . 


有 些 特殊 的 卷 积 核 可 以 表示 成 一 个 列 矢 量 和 一 个 行 矢量 的 乘积 , 这 时 只 需要 将 原始 


顺序 与 这 两 个 矢量 进行 卷 积 ， 所 得 到 的 最 终结 果 和 直接 与 卷 积 核 过 


一 个 N x M 的 矩阵 分 解 成 了 两 个 N x 1 和 1x M 的 矩阵 ， 因 此 对 于 较 大 的 卷 积 核能 大 幅度 


图 像 按 


F 行 卷 积 的 结果 相同 。 


于 将 


计算 速度 。OpenCV 提供 了 sepFilter2D0 来 进行 这 种 分 步 卷 积 ， 调 


sepFilter2D(src, ddepth, kernelX, kernelY[, dst[, anchor[, 


其 中 kemelX 和 kernelY 分别 为 行 卷 积 核 和 列 卷 积 核 ,下 面 的 程 
的 计算 速度 : 


img = np.random.rand(1666,1666) © 


row = cv2.getGaussianKernel(7, -1) @ 
col = cv2.getGaussianKernel(5, -1) 


kernel = np.dot(col[:]，row[:].T) © 


%time img2 = cv2.filter2D(img, -1, kernel) @ 
%time img3 = cv2.sepFilter2D(img, -1, row, col) © 
print "error=", np.max(np.abs(img2[:] - img3[:])) 
Wall time: 31 ms 

Wall time: 25 ms 

error= 4.4468926985e-16 


参数 如 下 : 


也 提高 


delta[, borderType]]]] 


Ce 


这 比较 filter2DO 和 sepFilter2DO 


@ 首 先 随机 产生 一 幅 比 较 大 的 图 像 img。@ 调 用 getGaussianKemel0 分 别 获 得 长 度 为 7 和 5 
的 两 个 高 斯 模糊 卷 积 核 row 和 col。 鼻 计算 row 和 col 的 矩阵 乘积 kemel， 它 是 一 个 形状 为 (5, 7) 
的 二 维 数组 。@@ 分 别 使 用 fler2D0O 和 sepFilter2DO 对 图 像 img 进行 卷 积 ， 并 测量 它们 的 计算 


时 间 。 


卷 积 核 的 尺寸 越 大 ， 计 算 时 间 的 差别 越 大 。 请 读者 更 改 row 和 col 的 值 ， 观 察 计算 时 间 的 


差别 。 


于 卷 积 计 算 很 常用 ,因此 OpenCV 提供 了 一 些 高 级 函数 来 直接 完成 与 某 币 


特定 卷 积 核 的 


卷 积 计算 。 例 如 平均 模糊 blur0、 高 斯 模糊 GaussianBlur0、 用 于 边缘 检测 的 差分 运算 Sobel0 和 


Laplacian0 等 。 关 于 这 些 函 数 的 用 法 请 读者 自行 参考 OpenCYV 的 文档 ， 这 是 


9.2.2 ”形态 学 运算 


就 不 再 举例 了 。 


在 SciPy 的 图 像 处 理 章节 中 ， 我 们 介绍 过 如 何 使 用 SciPy 的 图 像 处 理 模块 进行 形态 学 图 像 


的 处 理 。OpenCV 中 也 提供 了 类 似 的 处 理 功能 。 例 如 dilate0 对 图 像 进行 膨胀 处 理 ， 而 erode0 则 


对 图 像 进 行 腐 蚀 处 理 。 另 外 ，morphologyEx0 使 用 膨胀 和 收缩 实现 一 些 更 高 级 的 形态 学 处 理 。 这 
些 函数 都 可 以 对 多 值 图 像 进行 操作 ， 对 于 多 通道 图 像 ， 它 们 将 对 每 个 通道 进行 相同 的 运算 。 
dilate0 和 erode0 的 调用 参数 相同 : 


dilate(src, kernel[, dst[, anchor[, iterations[, borderType[, borderValue]]]]] 


二 


其 中 src 参数 是 原始 图 像 ，kemel 参数 是 结构 元 素 ， 它 指定 针对 哪些 周围 像素 进行 计算 ; 
anchor 参数 指定 锚 点 的 位 置 ， 其 默认 值 为 结构 元 素 的 中 心 ，iterations 参数 指定 处 理 次 数 。 
morphologyEx0 的 参数 如 下 : 


morphologyEx(src, op, kernel[, dst[, anchor[, iterations[, borderType[, borderValue]]]]]) 


它 比 dilate0 多 了 一 个 op 参数 ， 用 于 指定 运算 的 类 型 。 
膨胀 运算 可 以 用 下 面 的 公式 描述 : 


dst(x,y) = src(x+x,y+y') 


max 
kernel(xny')*0 


将 结构 元 素 的 锚 点 与 原始 图 像 中 的 每 个 像素 (x,y) 对 齐 之 后 ， 计 算 所 有 结构 元 素 值 不 为 0 
的 像素 的 最 大 值 , 写 入 目标 图 像 的 (x,y) 像 素 点 。 而 腐蚀 运算 则 是 计算 所 有 结构 元 素 不 为 0 的 像 
素 的 最 小 值 。 
morphologyEx0 的 高 级 运算 包括 : 
e MORPH_OPEN: 开 运 算 ， 可 以 用 来 区 分 两 个 靠 得 很 近 的 区 域 。 算 法 为 先 腐蚀 再 膨胀 
dst=dilate(erode(src)) 。 
e MORPH_CLOSE: 闭 运算 , 可 以 用 来 连接 两 个 靠 得 很 近 的 区 域 。 算 法 为 先 膨胀 再 腐蚀 ， 
dst=erode(dilate(src))。 
e MORPH_GRADIENT: 形态 梯度 ， 能 够 找 出 图 像 区 域 的 边缘 。 算 法 为 膨胀 减 去 腐蚀 ， 
dst=dilate(src)- erode(src)。 
e MORPH_TOPHAT: 项 帽 运算 ， 算 法 为 原始 图 像 减 去 开 运算 : dst = src-open(src)。 
e MORPH_ BLACKHAT: 黑 帽 运算 ， 算 法 为 闭 运算 减 去 原始 图 像 ，dst=close(src)-src。 
下 面 的 程序 演示 了 上 述 形态 学 图 像 处 理 的 效果 。 图 9-4 是 界面 截图 。 请 读者 通过 此 界面 修 
改 结构 元 素 、 处 理 类 型 以 及 迭代 次 数 等 参数 ， 并 观察 经 过 处 理 之 后 的 图 像 ， 理 解 各 种 运算 的 


公式 。 


A scpy2.opencv.morphology_demo: 演示 OpenCV 中 的 各 种 形态 学 运算 。 
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0.0 
结构 元 素 : 1 
0.0 


选 代 次 数 : 1 5 


Figure: 0, 133 


9.2.3 ”填充 -floodFill 


多 再 % 开 : MORPHGRADIENT ee 


0.0 


介 QO+ 二 回国 


图 94 形态 学 图 像 处 理 演示 界面 


填充 函数 floodFill0 在 图 像 处 理 中 经 常用 于 标识 或 分 离 图 像 中 的 某 些 特定 部 分 。 它 的 调用 方 


式 为 : 


floodFill(image, mask, seedPoin 


， NewVal[, loDiff[, upDiff[, flags]]]) 


其 中 image 参数 是 需要 填充 的 图 像 ，seedPoint 参数 为 填充 的 起 始点 ， 我 们 称 之 为 种 子 点 ; 
newVal 参数 为 填充 所 使 用 的 颜色 值 ，loDiff 和 upDi 症 参数 是 填充 的 下 限 和 上 限 容 差 ，flags 参数 


是 填充 的 算法 标志 。 


填充 从 seedPoint 指定 的 种 子 坐 标 开 始 , 图 像 中 与 当前 的 填充 区 域 颜色 相近 的 点 将 被 添加 进 


填充 区 域 ， 从 者 
方法 有 两 种 : 
。 默认 使 


逐步 扩大 填充 区 


相 邻 点 为 基点 进行 判断 。 


域 ， 直 到 没有 新 的 点 能 添加 进 填充 区 域 为 止 。 颜 色相 近 的 判断 


e 如 果 开 启 了 flags 中 的 FLOODEFILL_FIXED_ RANGE 标志 位 ， 则 以 种 子 点 为 基点 进行 判 


断 。 


被 添加 进 填 充 区 域 : 


自 设 图 像 中 某 个 点 (x,y) 的 颜色 为 C(x,y)，Co 为 基点 颜色 ， 则 下 


面 的 条 件 满足 时 ，(x,y) 将 


Co — loDiff < C(x,y) < Co + hiDiff 


此 外 还 可 以 通过 flags 指定 相 邻 点 的 定义 : 四 连通 或 八 连通 。 
当 mask 参数 不 为 None 时 , 它 是 一 个 宽 和 高 比 imasge 都 大 两 个 像素 的 单 通道 8 位 图 像 .image 


图 像 中 的 像素 (x,y) 与 mask 中 的 (x + 站 y+ 了 对 应 。 填 充 只 针对 mask 中 的 值 为 0 的 像素 进行 。 
进行 填充 之 后 ，mask 中 所 有 被 填充 的 像素 将 被 赋值 为 1。 如 果 只 希望 修改 mask， 而 不 对 原始 图 
像 进行 填充 ， 可 以 开启 flags 标志 中 的 FELOODFILL_ MASK_ONLY。 


在 下 面 的 例子 中 , 第 一 次 调用 floodFillO 时 , 由 于 设置 了 FLOODFILL_MASK_ONLY 标志 ， 


因此 填充 只 在 mask 中 进行 ， 并 未 修改 img 中 的 数据 : 


img = cv2.imread("coins.png") 

seed1 = 344, 188 

seed2 = 152, 126 

diff = (13, 13, 13) 

h, w = img.shape[:2] 

mask = np.zeros((h+2, w+2), np.uint8) 

Cv2.floodFill(img, mask, seed1l, (6, 8, 8), diff, diff, cv2.FLOODFILL MASK_ONLY) 
Cv2.floodFill(img, None, seed2, (8, 8@, 255), diff, diff) 


fig, axes = pl.subplots(1, 2, figsize=(9, 4)) 
axes[8].imshow(~mask, cmap="gray") 
axes[1].imshow(img) 


0 50 100 150 200 250 300 350 


图 9-5 演示 floodFill0 的 填充 效果 


面 的 程序 演示 了 floodFill0 的 用 法 ， 界 面 如 图 9-6 所 示 。 在 图 像 上 用 鼠标 左 键 点 选 填充 的 


种 子 点 。 通 过 界面 上 方 的 控件 修改 loDiff、upDiff 和 flags 等 参数 。 


[enaipg 
范围 10 | 保存 设置 | | 设置 
Fo: 10 Fl: 10 
负 方 向 范围: 
F2: 10 F3: 10 
Fo: 10 Fl: 10 
正方 向 范围: 
F2: 10 F3: 10 
Fo:0 Fl: 0 
填充 颜色 : 
FR2: 255 F3: 255 
种 子 坐标 : x: 269 Y: 347 


算法 标志 : | 以 邻 点 为 标准 4 联通 


Figure: 1, 296 


图 9-6 填充 演示 程序 的 界面 截图 
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[®, scpy2.opencvfloodfill demo: 演示 填充 函数 floodFill0 的 各 个 参数 的 用 法 。 


DVD 


演示 程序 中 使 用 两 个 大 加 在 一 起 的 AxesImage 对 象 显示 图 像 ， 下 层 显 示 原 始 图 像 ， 上 层 半 
透明 地 显示 填充 之 后 的 图 像 ， 因此 可 以 观察 被 填充 区 域 的 原始 图 像 。floodFill0 的 flags 参数 的 选 
项 如 下 : 


Options = { 
u" 以 种 子 为 标准 -4 联通 ": cv2.FLOODFILL_FIXED RANGE | 4， 
u" 以 种 子 为 标准 -8 联通 ": cv2.FLOODFILL_FIXED_RANGE | 8， 
u" 以 邻 点 为 标准 -4 联通 ": 4， 
u" 以 邻 点 为 标准 -8 联通 ": 8 

D 
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9.2.4 ”去 瑕 症 -inpaint 


使 用 inpaintO 可 以 从 图 像 上 去 除 指定 区 域 中 的 物体 ， 可 以 用 于 去 除 图 像 上 的 水 印 、 划 痕 、 
污渍 等 瑕 羔 。 它 的 调用 参数 如 下 : 


inpaint(src, inpaintMask, inpaintRadius, flags[, dst]) 


其 中 ，src 参数 是 原始 图 像 ，inpaintMask 参数 是 大 小 和 src 相同 的 单 通道 8 位 图 像 ， 其 中 不 
为 0 的 像素 表示 需要 去 除 的 区 域 。dst 参数 用 于 保存 处 理 结果 。inpaintRange 参数 是 处 理 半 径 ， 
半径 越 大 处 理 时 间 越 长 ， 结 果 越 平滑 。flags 参数 选择 inpaint 的 算法 ， 目 前 有 两 个 候选 算法 : 
INPAINT_NS 和 INPIANT_TELEA。 

下 面 的 程序 演示 inpaint0 的 用 法 ， 界 面 如 图 9-7( 左 ) 所 示 。 右 上 图 中 用 白色 区 域 表 示 
inpaintMask 参数 中 不 为 0 的 像素 ， 即 需要 处 理 的 区 域 ， 右 下 图 显示 了 对 此 区 域 进行 处 理 之 后 的 
效果 。 


他 QO 十 回国 


图 9-7 使 用 inpaint 去 除 图 像 中 的 物体 


[@® scpy2.opencvinpaint_demo: 演示 inpaint0 的 用 法 ， 用 户 用 鼠标 绘制 需要 去 瑕 疫 的 区 域 ， 
[5] 程序 实时 显示 运算 结果 。 


在 本 书 提供 的 inpaint_demo 程序 中 , 用 鼠标 绘制 需要 进行 处 理 的 区 域 之 后 ,可 以 修改 “inpaint 
半径 ”和 “inpaint 算法 ”等 设置 ， 实 时 观察 它们 对 处 理 结果 的 影响 。 如 果 选 区 过 大 ， 处 理 可 能 
需要 较 长 时 间 ， 此 时 可 以 单 击 “ 保 存 结果 ”按钮 ， 用 当前 的 处 理 结果 覆盖 原始 图 像 ， 并 清除 选 
区 ， 以 进行 下 一 轮 处 理 。 


9.3 图 像 变 换 


A 与 本 节 内 容 对 应 的 Notebook 为 : 09-opencv/opencv-300-transforms.ipynb 


本 节 介绍 一 些 常用 的 图 像 变换 算法 ， 其 中 包括 : 对 图 像 中 的 像素 坐标 进行 几何 变换 、 对 像 
素颜 色 进 行 转换 、 计 算 频 域 信息 以 及 使 用 双 目 图 像 计 算 深度 信息 。 


9.3.1 几何 变换 


我 们 可 以 对 图 像 在 二 维 平面 上 进行 仿 射 变换 ， 或 者 在 三 维 空间 中 进行 透视 变换 。 仿 射 变 换 
相当 于 将 二 维 平面 上 的 每 个 坐标 点 与 一 个 2 x 3 的 矩阵 相 乘 ， 得 到 新 的 坐标 ， 而 透视 变换 则 是 
与 3 x 3 的 矩阵 相 乘 。 原 本 平行 的 两 条 直线 在 经 过 仿 射 变换 之 后 仍然 是 平行 的 ， 而 经 过 透视 变 
换 之 后 ， 它 们 就 可 能 不 再 平行 了 。 

OpenCV 中 使 用 warpAffine0 对 图 像 进行 仿 射 变换 ， 调 用 参数 如 下 : 


warpAffine(src, M, dsize[, dst[, flags[, borderMode[, borderValue]]]]) 


中 src 参数 是 变换 的 原始 图 像 ，dsize 人 ， 返 回 图 像 的 像素 类 型 和 src 


的 相同 。M 参数 是 仿 射 变换 的 矩阵 ， 它 是 一 个 形状 为 2.3) 的 数组 。flags 参数 是 内 插 方 式 ， 
borderMode 是 外 插 方 式 ，borderValue 为 有 县 大. 关于 这 些 参数 的 含义 请 读者 阅读 OpenCV 的 
文档 。 


假设 矩阵 M 的 各 个 元 素 如 下 : 


Be ao1 9 
alo0 all bi 


那么 仿 射 变换 可 以 用 下 面 的 公式 表示 : 
dst(aoox 十 aoly 十 boaliox 十 aiiy 十 bl) = src(x,y) 
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仿 射 变换 矩阵 中 有 6 个 参数 ， 因 此 只 需要 指定 变换 前 后 3 个 坐标 点 的 坐标 ， 就 可 以 通过 解 
线性 方程 组 获得 变换 矩阵 。OpenCV 提供 了 getAffineTransform(src, dsb 来 快速 完成 这 种 计算 。src 
和 dst 参数 是 变换 前 后 的 三 个 点 的 坐标 ， 它 们 都 是 形状 为 3, 2) 的 单 精度 浮 点 数 数组 。 下 面 的 程 
序 演示 了 这 两 个 函数 的 用 法 ， 效 果 如 图 9-8 所 示 : 


img = cv2.imread("lena.jpg") 

h, w = img.shape[:2] 

src = np.array([[8, 8], [w - 1, 8], [8, h - 1]], dtype=np.float32) © 
dst = np.array([[38680, 3680], [873, 78], [161, 923]], dtype=np.float32) ©@ 


m = cv2.getAffineTransform(src, dst) © 
result = cv2.warpAffine( 
img, m, (2 * w, 2 * h), borderValue=(255, 255, 255, 255)) @ 


图 98 对 图 像 进行 仿 射 变换 


@src 为 图 9-8 中 三 角形 的 三 个 顶点 坐标 ， 这 三 个 点 分 别 为 图 像 的 左上 、 右 上 和 左下 三 个 顶 
点 。@dst 为 这 三 个 顶点 经 过 仿 射 变换 之 后 的 坐标 , 图 中 用 三 个 箭头 连接 仿 射 变换 前 后 的 坐标 点 。 


人 @ 调 用 getAffineTransform0 得 到 仿 射 变 换 矩 阵 m， 然 后 @ 调 用 warpAffine0 对 图 像 img 进行 仿 射 
变换 ， 结 果 图 像 的 大 小 为 原始 图 像 的 两 倍 ， 背 景 采用 白色 填充 。 

warpPerspective0 和 warpAffine0 类 似 ， 也 对 图 像 进行 几何 变换 ,不 过 它 是 在 三 维 空间 中 进行 
透视 变换 , 因此 它 的 变换 矩阵 是 3 x 3 的 矩阵 。 这 个 变换 矩阵 可 以 通过 getPerspectiveTransform(sre, 
dsb 计 算 。src 和 dst 参 数 是 变换 前 后 的 4 个 点 的 坐标 , 它们 都 是 形状 为 (4.2) 的 单 精度 浮 点 数 数组 。 
下 面 的 程序 演示 了 这 两 个 函数 的 用 法 ， 结 果 如 图 9-9 所 示 。 


src = np.array( 
[[e@, 8], [w - 1, 8], [w - 1, h - 1], [8, h - 1]]，dtype=np.float32) 


dst = np.array( 
[[388，356]，[888，369]，[9886，923]，[161，923]]，dtype=np.float32) 


m = CV2.getPerspectiveTransform(src，dst) 
result = cv2.warpPerspective( 
img, m, (2 * w, 2 * h), borderValue=(255, 255, 255, 255)) 


图 9.9 对 图 像 进行 透视 变换 


为 了 便于 直观 地 理解 仿 射 变换 和 透视 变换 ， 请 读者 运行 下 面 的 演示 程序 ， 界 面 如 图 9-10 
所 示 。 


SY scpy2.opencv.warp_demo: 仿 射 变换 和 透视 变换 的 演示 程序 ， 可 以 通过 鼠标 拖 避 图 中 
蓝 色 三 角形 四边形 的 顶点 ， 从 而 决定 原始 图 像 各 个 顶 角 经 过 变换 之 后 的 坐标 。 


1 256 
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图 9-10 仿 射 变换 和 透视 变换 演示 程序 
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9.3.2 重 映射 -remap 


对 于 图 像 的 各 种 变换 都 有 一 个 共同 特点 : 它们 从 原始 图 像 上 的 某 个 位 置 取出 一 个 像素 点 ， 
并 把 它 绘制 到 目标 图 像 上 的 另外 一 个 位 置 。 从 原始 坐标 到 目标 坐标 的 映射 不 一 定 是 一 对 一 的 关 
系 。OpenCV 提供 了 一 个 通用 的 图 像 映 射 函 数 remap0 来 完成 这 种 计算 ， 其 调用 参数 如 下 : 


remap(src, mapl, map2, interpolation[, dst[, borderMode[, borderValue] 


其 中 mapl 和 map2 参数 是 两 个 大 小 与 原始 图 像 sre 相同 的 数组 ， 它 们 的 元 素 值 是 图 像 dst 
中 对 应 下 标的 像素 点 在 图 像 src 中 的 坐标 值 ， 其 元 素 可 以 是 整数 或 单 精 度 浮 点 数 。mapl 中 存储 
映射 的 X 轴 坐标 ， 而 map2 中 存储 映射 的 Y 轴 坐标 。 下 面 的 数学 公式 表示 了 这 种 映射 关系 ， 其 
中 x 和 y 是 目标 图 像 中 每 个 像素 的 坐标 ， 通 过 mapl 和 map2 分 别 获得 它们 在 src 中 的 坐标 。 

dst(x,y) = src(map1(x,y), map2(x,y)) 

oe 序 使 用 remap0 将 图 像 Y 轴 方 向 缩小 为 原来 的 三 分 之 一 ， 将 义 轴 方向 缩小 为 原 3 
的 一 半 ，img2[y, x] 的 像素 值 与 img[mapy[y, x], mapx[y, x]] 的 像素 值 相同 。 程 序 中 通过 interpolation 
pe 定 采用 线性 插值 INTER_LINEAR， 读 者 可 以 通过 IPython 的 自动 完成 功能 查看 其 他 的 插 
值 选项 。 


mapy, mapx = np.mgrid[@:h * 3:3, O@:w * 2:2] 

img2 = cv2.remap(img, mapx.astype("f32"), mapy.astype("f32"), cv2.INTER_LINEAR) 
x，y = 12，48 # 用 于 验证 映射 公式 的 坐标 点 

assert np.all(img[mapy[y, x], mapx[y, x]] == img2[y, x]) 


缩小 之 后 的 图 像 img2 的 大 小 仍然 和 原始 图 像 img 相同 ， 但 是 其 中 只 有 左上 部 分 有 图 像 数 
据 。 这 里 使 用 mgrid 对 象 直接 创建 两 个 映射 数组 mapx 和 mapy。 

为 了 演示 remap0 的 强大 功能 ， 下 面 的 程序 让 用 户 输入 一 个 三 维 空间 的 曲面 函数 ， 程 序 将 
根据 此 函数 所 计算 的 曲面 对 图 像 进 行 变形 ,效果 如 图 9-11 所 示 , 就 像 是 将 图 像 贴 在 曲面 上 一 样 。 


def make_surf_map(func, r, w, h, de): 
"" 计 算 曲 面 函数 func 在 [-r: Dh Beals 并 进行 透视 投影 。 
视点 高 度 为 曲面 高 度 的 de 倍 +1"" 
y, xX = np.ogrid[-r:r:h * 1j, -r:r:w * 1j] 
z= func(x, y)) +0* (x+y) © 
d= do*np.ptp(z)+1.06 @ 
mpl=x*(d-z)/d®e® 
mp2=y*(d-z)/d 
return (mapl / (2 * r) +0.5) * w, (map2/ (2 * r) + 9.5) * h @ 


def make_func(expr_str): 
def f(x, y): 
return eval(expr_str, np._ dict , locals()) 
return f 


def get_latex(expr_str): 
import sympy 
x, y = Sympy.symbols("x, y") 
eV wm {XY Xs yy} 
expr = eval(expr_str, sympy._dict , env) 
return sympy.latex(expr) 


settings = [ 
("sqrt(8 - x**2 - y**2)", 2, 1), 
("sin(6*sqrt(x**2+y**2))", 10, 10), 
("sin(sqrt(x**2+y**2))/sqrt(x**2+y**2)", 20, @.5) 

] 

fig, axes = pl.subplots(1, len(settings), figsize=(12, 12.0 / len(settings))) 


for ax, (expr, r, height) in zip(axes, settings): 
mapx, mapy = make_surf_map(make_func(expr), r, w, h, height) 
img2 = cv2.remap( 
img, mapx.astype("f32"), mapy.astype("f32"), cv2.INTER_LINEAR) 
ax.imshow(img2[:,:,::-1]) 
ax.axis("off") 
ax.set title("${}$".format(get_latex(expr))) 


fig.subplots_adjust(8, 8, 1, 1, 8.62, 0) 


图 9-11 使 用 三 维 曲面 和 remap0 对 图 片 进行 变形 
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程序 中 ， 先 计算 指定 范围 内 的 网 格 x、y，@ 然 后 计算 出 网 格 上 每 一 点 的 曲面 的 高 度 z。@ 
通过 曲面 的 高 度 范围 和 d0 参数 决定 观察 点 的 高 度 。@ 然 后 利用 投影 变换 公式 , 计算 出 表示 坐标 
变换 的 两 个 数组 mapx 和 mapy。 其 中 投影 公式 的 示意 图 如 图 9-12 所 示 。@ 最 后 将 mapx 和 mapy 
的 取 值 范围 改 为 图 像 的 范围 之 内 。 
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投影 公式 
? = x*(d-z)/d 


图 9-12 投影 公式 示意 图 


还 可 以 用 remap0 移 动 图像 中 指定 的 区 域 ， 使 用 该 算法 可 以 让 用 户 通过 鼠标 拖 忠 图 像 的 局 
部 使 其 变形 。 在 下 面 的 例子 中 ，(tx, ty) 为 鼠标 拖 忠 的 起 始 坐 标 ，(sx, sy) 为 拖 忠 的 终点 坐标 ，r 是 
拖 忠 半径 ， 半 径 越 大 被 影响 的 像素 越 多 。 

为 了 方便 程序 的 编写 ,我们 将 remap0 的 mapl 和 map2 两 个 参数 分 别 分 解 为 两 个 部 分 gridx 
和 offsex、gridy 和 offsety。@gridx 和 gridy 为 恒 等 映 射 ， 使 用 这 两 个 数组 不 会 对 图 像 产生 任何 
改变 。@@ 在 终点 坐标 处 创建 一 个 半径 为 z 的 圆 形 遮 单 数组 mask。 自 将 offsetx 和 offsety 中 与 mask 
对 应 的 值 修改 为 拖 忠 的 起 点 与 终点 的 坐标 差 。 如果 使 用 这 时 的 gridx +offsetx 和 gridy + offsety 作 


涨 消 芝 着 半 闪 靖 仿 六 轿 -ADU9dO 


为 坐标 映射 ， 就 会 将 以 起 点 坐标 为 中 心 、 半 径 为 + 的 圆 形 区 域 复 制 到 终点 对 应 的 区 域 。@ 为 了 
让 变形 更 加 和 柔和， 我 们 使 用 GaussianBlur0 对 两 个 offset 数组 进行 高 斯 模糊 处 理 ，sigma 参数 决定 
模糊 的 程度 ， 该 值 越 大 越 模糊 。 

图 9-13 显示 了 变形 之 后 的 效果 , 其 中 虚线 圆 表 示 拖 忠 的 起 始 位 置 , 实 线 圆 表 示 拖 外 的 终点 
位 置 。 


[人 sepy2opencvremap_demo: 演示 memap0 的 拖 义 效 采 . 在 图 像 上 按 住 鼠标 左 键 进行 掀 电 ， 
[TO 每 次 拖 昌 完成 之 后 ， 都 将 修改 原始 图 像 ， 可 以 按 饼 标 右键 撤销 上 次 的 拖 点 操作 。 


img = cv2.imread("lena.jpg") 

h, w = img.shape[:2] 

gridy, gridx = np.mgrid[:h, :w] © 
tx, ty = 313, 316 

sx, Sy = 340, 332 

r=40.06 

sigma = 26 


mask = ((gridx - sx) ** 2 + (gridy - sy) ** 2)<r**2 四 
offsetx = np.zeros((h, w)) 
offsety = np.zeros((h, w)) 
offsetx[mask] = tx - sx © 
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offsety[mask] = ty - sy 
offsetx_blur = cv2.GaussianBlur(offsetx, (8, 86), sigma) @ 
offsety_blur = cv2.GaussianBlur(offsety, (68, 8), sigma) 
img2 = cv2.remap(img, 
(offsetx blur + gridx).astype("f4"), 
(offsety blur + gridy).astype("f4"), cv2.INTER_LINEAR) 


图 9-13 使 用 remap0 实 现 图 像 拖 电 效 果 


9.3.3 直方 图 


在 NumPy 中 有 三 个 直方 图 统计 函数 : histogram0、histogram2d0 和 histogramdd0， 分 别 对 应 
- 维 数据 、 二 维 数据 以 及 多 维 数据 的 情况 。 下 面 的 程序 用 histogram0 和 histogram2d0 对 图 像 的 颜 
色 分 布 进行 统计 ， 输 出 如 图 9-14 所 示 的 统计 结果 。 


img = cv2.imread("lena.jpg") 
fig, ax = pl.subplots(1, 2, figsize=(12, 5)) 
colors = ["blue", "green", "red"] 


for i in range(3): 
hist, x = np.histogram(img[:,:, i].ravel(), bins=256, range=(6, 256)) © 
ax[8].plot(@.5 * (x[:-1] + x[1:]), hist, label=colors[i], color=colors[i]) 


ax[8] .legend(loc="upper left") 
ax[6].set_xlim(6，256) 
hist2, x2, y2 = np.histogram2d( © 
img[:,:, 8].ravel(), img[:,:, 2].ravel(), 
bins=(166，166)，range=[(6，256)，(86，256)]) 
ax[1].imshow(hist2，extent=(6，256，6，256)，origin="lower"，cmap="gray") 
ax[1].set ylabel("blue") 
ax[1].set xlabel("red") 
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图 9-14 lenajpg 的 三 个 通道 的 直方 图 统计 ( 左 )， 通 道 9 和 通道 2 的 二 维 直方 图 统计 ( 右 ) 

@ 通 过 histogram0 对 图 像 img 的 三 个 通道 分 别 进行 一 维 直 方 图 统计 ， 由 于 被 统计 的 数组 必 
O 须 是 一 维 的 , 因此 这 里 调用 数组 的 ravel0 方 法 将 二 维 数组 转换 为 一 维 数组 。 通过 range 参数 指定 
3 统计 区 间 为 0 一 256，bin 参数 指定 将 统计 区 间 等 分 为 256 份 。histogram0 返 回 两 个 数组 hist 和 x， 
人 其 中 hist 为 统计 结果 ， 长 度 为 bin。 而 x 为 统计 区 间 ， 长 度 为 bn+1。hist 国 的 值 为 数组 中 满足 x 向 
信 <=V<x[i+1] 的 元 素 v 的 个 数 。 
每 加 用 histogram20 对 通道 0 和 通道 2 进行 二 维 直 方 图 统计 。 被 统计 的 数组 是 两 个 一 维 数 组 ， 
入 因此 也 需要 用 ravel0 方 法 进行 转换 。 它 们 分 别 为 图 像 的 通道 0 和 通道 2 的 数据 。bins 和 range 参 
六 数 都 变 成 了 有 两 个 元 素 的 序列 , 分 别 与 两 个 数组 相对 应 ,返回 的 统计 结果 hist2 是 一 个 二 维 数 组 ， 
次 其 形状 由 bins 决定 。 第 0 轴 与 第 一 个 数组 相对 应 ， 第 1 轴 与 第 二 个 数组 相对 应 。 它 是 由 两 个 一 
维 数组 的 对 应 元 素 所 构成 的 二 维 矢量 的 分 布 统计 结果 。 


观察 图 9-14( 左 ) 可 知 红色 通道 的 值 半 


以 得 出 红色 通道 的 值 比 蓝 色 通道 较 大 的 结论 ， 
- 块 的 中 心 坐标 大 约 为 207, 125)， 这 说 明 图 像 ! 


点 较 多 。 

OpenCV 中 的 直方 图 统计 函数 为 calcHistO)。 
其 第 一 个 参数 为 数组 列表 。 下 面 使 用 calcHistO 并 
每 个 通道 的 等 分 数 分 别 为 G0, 20, 10)， 
形状 为 (30, 20, 10) 的 数组 : 


下 


result = cv2.calcHist([img], 
channels=(8, 1, 2), 
mask = None, 
histSize = (36，26， 
ranges = (6，256，6， 
result.shape 
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普遍 较 大 ， 因 此 整个 图 片 呈 
还 可 以 看 到 几 处 分 布 比较 密集 的 领域 。 


所 有 通道 


现 暧 色调 ， 而 从 右 图 不 但 可 
例如 其 中 
近 的 像素 


刻 


Ji 


! 红 色 值 在 207 附近 、 蓝 色 值 在 125 附 ; 
它 支 持 对 多 幅 图 像 进 行 N 维 直 方 图 统计 ， 因 此 
img 的 三 个 通道 (0, 1, 2) 进 行 三 维 直 方 图 统计 。 
的 取 值 范围 都 为 (0,256)。 返 回 结果 result 是 


-个 


19)， 
256，6，256)) 


(39，26，19) 
1. 直方 图 反 向 映射 


计算 出 直方 图 之 后 , 可 以 用 calcBackProject0 将 图 像 中 的 每 点 替换 为 它 在 直方 图 中 所 对 应 的 
值 。 于 是 在 直方 图 中 出 现 次 数 越 高 ， 图 像 中 对 应 的 像素 就 越 亮 。 可 以 用 这 各 方法 找 出 图 像 中 和 
直方 图 相 匹配 的 区 域 。 下 面 用 一 个 实际 的 例子 加 以 说 明 : 


img = cv2.imread("fruits_section.jpg") © 
jmg_hsv = cv2.cvtColor(img, cv2.COLOR_ BGR2HSV) 


result = cv2.calcHist([img hsv], [8, 1], None, ©@ 
[40, 40], [8, 256, 0, 256]) 


result /= np.max(result) / 255 © 


img2 = cv2.imread("fruits.jpg”) @ 


[le] 

img_hsv2 = cv2.cvtColor(img2, cv2.COLOR_BGR2HSV) B 
己 

下 

img bp = cv2.calcBackProject([img hsv2], © 图 
channels=[6，1]， 你 

hist=result， 理 

ranges=[6，256，6，256]， 和 和 

scale=1) 算 

_, img th = cv2.threshold(img bp, 180, 255, cv2.THRESH BINARY) © 可 
struct = np.ones((3, 3), np.uint8) 觉 


img mp = cv2.morphologyEx(img_th，cv2.MORPH_CLOSE，struct，iterations=5) @ 


图 9-15 使 用 calcBackProject0 寻 找 图 像 中 的 橙子 部 分 


蛆 序 的 输出 如 图 9-15 所 示 。 它 在 图 像 fnuitsjpg( 上 中 图 ) 中 寻找 和 图 像 fruits_sectionjpg( 上 左 
图 ) 的 颜色 近似 的 部 分 。 
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@ 首 先 载 入 颜色 匹配 的 模板 图 像 , 并 通过 cvtColor0 将 图 像 的 三 通道 的 数据 从 蓝 绿 红 变 换 为 


ranges 参数 和 calcHist0 的 参数 含义 相同 。 


@ 调 用 threshold0 对 calcBackProject0 


色相 、 饱 和 度 和 明度 。@ 调 用 calcHist0 对 模板 图 像 的 色相 与 饱和 度 进 行 二 维 直方 图 计算 。 在 色 
相 与 饱和 度 空间 进行 颜色 匹配 ， 能 够 得 到 较 好 的 匹配 结果 。@ 为 了 后 续 的 calcBackProject0 计 算 
不 越界 ， 这 里 将 直方 图 的 最 大 值 缩小 到 255。 图 9-15( 上 右 ) 为 所 计算 的 直方 图 。 

@ 载 入 目标 图 像 ， 然 后 也 通过 cvtColor0 进 行 颜 色 转 换 。@ 调 用 calcBackProject0 将 目标 图 像 
中 的 每 个 像素 的 颜色 变换 为 其 在 直方 图 中 所 对 应 的 值 。 它 的 第 一 个 参数 是 一 个 图 像 列表 ，hist 
参数 指定 直方 图 ， 返 回 值 是 一 幅 单 通道 


的 形状 和 数值 类 型 与 输入 图 像 相 同 的 图 像 。channels、 
图 9-15( 下 左 ) 为 calcBackProject0 的 计算 结果 。 


的 输出 图 像 进行 二 值 化 处 理 ， 参 数 THRESH_BINARY 


指定 了 二 值 化 处 理 的 方法 ， 它 将 图 像 中 值 小 于 等 于 180 的 点 都 设置 为 0， 将 大 于 180 的 设置 为 


255。 图 9-15( 下 中 ) 为 二 值 化 的 结果 。 


@ 最 后 对 二 值 化 之 后 的 图 像 进行 形态 学 图 像 处 理 。 使 用 5 次 开 运算 将 图 像 中 的 分 散 的 区 域 
连接 成 一 个 大 区 域 。 图 9-15( 下 右 ) 为 最 终结 果 , 它 的 白色 区 域 正好 对 应 目标 图 像 中 的 橙子 部 分 。 
还 可 以 对 这 个 结果 进行 一 些 处理 : 例如 使 用 闭 运算 消除 一 些 杂 点 ， 然 后 找 出 图 像 中 面积 最 大 的 


区 域 。 


这 种 方法 也 可 以 用 于 在 视频 中 跟踪 一 个 颜色 鲜明 的 物体 。 在 跟踪 物体 之 前 ,首先 对 一 幅 物 


体 充 满 整个 画面 的 图 像 进行 直方 图 统计 ， 


2. 直方 图 匹配 


然后 对 视频 后 续 的 帧 进行 calcBackProject0 计 算 。 


直方 图 可 以 表示 图 像 的 颜色 分 布 情况 , 而 通过 直方 图 匹配 算法 可 以 将 一 幅 图 像 的 直方 图 分 
布 复制 给 男 一 幅 图 像 ， 从 而 让 目标 图 像 拥 有 原 图 像 的 直方 图 信息 。 基 本 步骤 如 下 : 
@ 计 算 原 图 像 src 与 目标 图 像 dst 的 归 一 化 之 后 的 直方 图 统计 , 得 到 的 结果 为 概率 密度 分 布 。 


@ 用 cumsum0 对 概率 密度 分 布 进行 累加 ， 


得 到 累计 分 布 。@ 在 原 图 像 的 累计 分 布 中 搜索 目标 图 


像 的 累计 分 布 所 对 应 的 下 标 index， 由 于 累计 分 布 是 递增 函数 ， 因 此 可 以 用 searchsorted0 进 行 二 
分 查找 .@ 调 用 clip0 将 index 的 取 值 范围 限制 在 0~255 之 间 , @ 然 后 用 它 对 目标 图 像 进 行 映射 ， 
即将 目标 图 像 中 每 个 像素 值 替换 为 index[v]。 


def histogram match(src, dst): 
res = np.zeros_like(dst) 
cdf_src = np.zeros((3, 256)) 
cdf dst = np.zeros((3, 256)) 
cdf_res = np.zeros((3, 256)) 


kw = dict(bins=256, range=(8, 256), normed=True) 


orch dn te ds ,23: 


hist_src, _ = np.histogram(src[:, :, ch], **kw) © 

hist dst, _ = np.histogram(dst[:, :, ch], **kw) 

cdf_src[ch] = np.cumsum(hist_ src) ©@ 

cdf dst[ch] = np.cumsum(hist_dst) 

index = np.searchsorted(cdf_src[ch], cdf dst[ch], side="left") © 


np.clip(index, 8, 255, 
res[:, :, ch] = index[ 


out=index) @ 
dst[:, :, ch]] © 


hist res, _ = np.histogram(res[:, :, ch], **kw) 
cdf_res[ch] = np.cumsum(hist_res) 


return res, (cdf_src, cdf dst, cdf_res) 


下 面 调用 histogram_match0 将 一 幅 秋 景 的 直方 图 复制 给 夏 景 图 像 。 图 9-16 显示 了 对 夏 景 图 
进行 直方 图 匹配 处 理 前 后 的 图 像 ， 图 中 下 层 的 三 个 图 表 显 示 图 像 的 蓝 绿 红 三 个 通道 的 累计 分 布 
曲线 。 其 中 点 线 为 处 理 之 前 夏 景 图 的 累计 分 布 ， 实 线 为 处 理 之 后 的 累计 分 布 ， 而 虚线 为 秋 景 图 


的 黑 计 分 布 。 可 以 看 到 图 中 实 线 与 虚线 儿 乎 完全 重合 ， 因 此 完美 地 将 秋 景 图 的 直方 图 复制 给 
复 晤 图 


src = CVv2.imread("autumn.jpg") 
dst = cv2.imread("summer.jpg") 


res, cdfs = histogram match(src, dst) 


9.3.4 ”二 维 离散 傅立叶 变换 


为 了 更 好 地 理解 本 节 所 介绍 


0 50 10 150 200 250 50 100 150 200 250 5 


图 9-16 直方 图 匹配 结果 


图 像 数据 可 以 看 作 二 维 离散 信号 , 对 其 进行 二 维 离散 傅立叶 变换 , 能 将 其 转换 为 频 域 信号 ， 
将 原始 图 像 分 解 为 众多 二 维 正弦 波 的 受 加 。 由 于 NumPy 已 经 提供 了 二 维 离散 傅立叶 变换 的 函 
因此 本 节 主要 使 用 NumPy 的 相关 函数 进行 说 明 。 


的 内 容 ， 需 要 读者 掌握 离散 傅立叶 变换 相关 的 知识 。 在 本 书 最 


后 一 章 有 一 维 离散 傅立叶 变换 的 详细 论述 。 


对 一 维 的 N 点 实数 信号 x 过 


E 行 快速 傅立叶 变换 (FFT) 之 后 ， 得 到 表示 频 域 信号 的 N 个 复数 


局 -ADOuedO 
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的 数组 X。 但 是 数据 的 信息 量 并 没有 增加 ， 这 是 因为 : 


e 下 标 为 0 和 NA 的 两 个 复数 的 虚数 部 分 为 0。 
e 下 标 为 1 和 Ni 的 两 个 复数 共 罗 ， 也 就 是 虚数 部 分 数值 相同 、 符 号 相反 。 
同样 ， 对 于 一 个 N*N 的 二 维 实数 信号 x 进行 二 维 快速 傅立叶 变换 之 后 ， 得 到 表示 频 域 信 


号 的 N*N 个 复数 元 素 的 数组 X。 其 中 XIj] 和 XIN-iN-j] 共 斩 , 并 且 X[0, 0]、X[0, NP]、X[N/2, 0]、 
X[N2,NO2] 这 4 个 元 素 的 虚 部 为 0。 下面 我 们 用 程序 验证 一 下 : 


from numpy import fft 
x = np.random.rand(8，8) 
X = fft.fft2(x) 
print np.allclose(X[1:，1:]，Xx[7:6:-1，7:6:-1].conj()) # 共 斩 复 数 
print X[::4，::4] # 虚数 为 零 
True 
[[ 31.48765415+6.j -2.80563949+8.j] 
[ ”8.75758598+8.j -6.53147589+6.j]] 


频 域 信号 通过 ifft20 可 以 转换 回 空域 信号 ， 结 果 和 原始 的 空域 信号 完全 相等 。 但 是 ift0 所 


得 到 的 仍然 是 一 个 复数 数组 ， 只 是 每 个 元 素 的 虚 部 都 十 分 接近 于 0。 


部 分 转换 回 空 


x2 = fft.ifft2(X) # 将 频 域 信号 转换 回 空域 信号 
np.allclose(x，x2) # 和 原始 信号 进行 比较 
True 


频 域 信号 中 的 每 个 元 素 都 对 应 空域 信号 中 的 一 个 二 维 正弦 波 , 如 果 只 选择 频 域 信号 中 的 一 
信和 号， 就 相当 于 对 空域 信号 进行 了 滤波 处 理 。 下 面 演示 将 频 域 信号 中 的 不 同 区 


域 转换 回 空域 信号 之 后 的 滤波 效果 ， 输 出 如 图 9-17 所 示 。 


首先 载 入 一 幅 彩 色 图 像 ， 并 将 其 转换 为 灰 度 图 像 。 由 于 FFT 运算 的 最 佳 大 小 为 2 的 整数 次 


容 ， 因 此 使 用 resize0 将 图 像 的 大 小 改 为 256*256。 


然后 计算 图 像 img 的 频 域 2 img_freq， 由 于 它 是 一 个 复数 数组 ， 为 了 能 将 其 作为 图 像 显 


示 ， 计 算 它 的 每 个 元 素 的 模 值 ， 并 取 对 数 ， 得 到 数组 img_mag， 如 图 9-17( 左 上 ) 所 示 。 模 值 图 
像 的 4 个 角 与 低频 信号 对 应 ， 中 心 与 高 频 信号 对 应 。 由 于 4 个 角 附 近 较 亮 ， 这 说 明 原 始 图 像 的 


低频 成 分 较 多 ， 这 符合 一 般 图 像 信 号 的 规律 。 


为 了 更 好 地 观察 频 域 信号 ,我 们 使 用 fftshift0 对 img_mag 进行 移 位 ,得 到 数组 img_mag_shift。 


图 9-17( 中 上 ) 为 移 位 之 后 的 模 值 图 像 。ffishift0 将 两 个 对 角 线 上 的 方块 对 调 ， 即 1、3 象限 对 调 ， 


2、 


4 象限 对 调 。 这 样 图 像 的 中 部 与 低频 对 应 ， 而 4 角 与 高 频 信 号 对 应 。 


N = 256 

img = cv2.imread("lena.jpg", cv2.IMREAD GRAYSCALE) 
img = cv2.resize(img, (N, N)) 

img freq = fft.fft2(img) 

img mag = np.1og16(np.abs(img freq)) 


img_mag_shift = fft.fftshift(img mag) 


rects = [(80, 125, 85, 130), (90, 90, 95, 95), 
(156, 10, 250, 250), (110, 110, 146, 146)] 


最 后 选择 频 域 信号 中 的 一 部 分 ,将 其 转换 回 空域 信号 。 图 9-17 的 右上 图 和 下 排 的 图 , 分别 
显示 中 上 图 中 4 个 矩形 领域 所 对 应 的 空域 图 像 。 

@mask 是 一 个 布尔 数组 ， 其 形状 和 频 域 信号 数组 一 样 。@@ 将 其 中 坐标 在 指定 的 矩形 范围 之 
内 的 元 素 设置 为 Tmue。 利 同时 选择 共 斩 对 称 的 部 分 ， 否 则 通过 ifft20 转 换 回 空域 信号 时 虚 部 将 
不 会 为 0。@ 通 过 fftshift0 对 mask 数组 进行 移 位 ， 使 得 它 和 频 域 信号 img_freq 匹 配 。 

@ 接 下 来 将 频 域 信号 img_freq 与 mask 相 乘 , 得 到 在 频 域 进行 滤波 之 后 的 频 域 信号 img _freq2。 
@ 人 然后 调用 ifft20 将 img_freq2 转换 回 空域 信号 。 


二 


(全 scpy2.0pencvff2d_demo: 演示 二 维 离散 傅立叶 变换 , 用 户 在 左 侧 的 频 域 模 值 图 像 上 用 
回回 饼 标 绘制 遮 音 区域 ， 右 侧 的 图 像 为 频 域 信号 经 过 遮 嘿 处 理 之 后 转换 成 的 空域 信号 。 


filtered_results = [] 

for i，(x8，y8，x1，y1) in enumerate(rects): 
mask = np.zeros((N，N)，dtype=np.bool) © 
mask[xe:xl + 1, ye@:yl + 1] = True @ 
mask[N - xl:N- x + 1 , N - yl:N - yo + 1] = True © 
mask = fft.fftshift(mask) @ 
img freq2 = img freq * msk © 
img filtered = fft.ifft2(img freq).real @ 
filtered_results.append(img_filtered) 


图 9-17 (左上 ) 用 fi20 计 算 的 频 域 信号 ，( 中 上 ) 使 用 全 shif0 移 位 
之 后 的 频 域 信号 ，( 其 他 ) 各 个 领域 所 对 应 的 空域 信号 


涨 汰 学 粮 半 区 毅 效 蘑 加 -NOU9dO 


550 ， 


党 当 兰 糖 阅 赤 冰 疡 变 贺 -AOuedO 


，Python 科学 计算 (第 2 版 ) 


9.3.5 用 双 目 视觉 图 像 计算 深度 信息 


所 谓 双 目 视觉 是 指 模拟 人 眼 处 理 场景 的 方式 , 用 两 台 照 相机 从 不 同 视点 观察 同一 场景 获得 
两 幅 图 像 。 通 过 在 左右 两 幅 图 像 中 匹配 场景 对 应 的 点 ， 计 算出 场景 中 各 点 距离 照相 机 的 距离 ， 


从 而 重建 三 维 信息 ， 原 理 如 图 9-18 所 示 。 


和 目标 


图 9-18 双 目 视觉 图 像 计 算 深度 示意 图 


图 9-18 中 , 两 台 照 相机 的 焦距 均 为 f, 距离 为 B。 场景 中 目标 点 在 左 相 机 图 像 中 的 位 置 为 x， 


在 右 相 机 图 像 中 的 位 置 为 x。 同 一 点 在 两 幅 图 中 的 视差 (disparity) 为 x 一 x ， 由 


相似 三 角形 可 知 两 


照相 机 的 连 线 的 中 心 点 到 目标 点 的 距离 为 : 
B.f 
z= 7 
X 一 X 


由 上 面 的 公式 可 知 视差 越 大 ， 目 标点 到 照相 机 的 距离 越 小 ， 读 者 可 以 试 着 轮流 使 用 左右 单 


眼 观察 场景 ， 可 以 发 现 距 离 越 远 的 物体 偏 移 量 越 小 。 


视差 信息 可 由 OpenCV 提供 的 StereoSGBM 类 计算 。 它 有 相当 多 的 参数 可 供 调节 ， 为 了 获 


得 较 好 的 效果 ， 需 要 仔细 调节 这 些 参数 。 下 面 的 程序 中 的 参数 可 


用 于 通常 情况 。 


StereoSGBM.compute0 计 算 视 差 信息 ， 得 到 的 是 一 个 双 字 节 的 整 型 数组 ， 将 其 中 的 值 除 以 16 就 


可 以 得 到 以 像素 为 单位 的 视差 数据 。 


img_left = cv2.pyrDown(cv2.imread( "aloeL.jpg')) 
img_right = cv2.pyrDown(cv2.imread('aloeR.jpg')) 


img_left = cv2.cvtColor(img_left, cv2.COLOR_BGR2RGB) 
img_right = cv2.cvtColor(img_right, cv2.COLOR_BGR2RGB) 


stereo_parameters = dict( 
SADWindowSize = 5， 
numDisparities = 192, 
preFilterCap = 4, 
minDisparity = -24, 


uniquenessRatio = 1， 
speckleWindowSize = 156， 
speckleRange = 2， 
disp12MaxDiff = 19， 
fullDP = False, 

P1 = 666， 

P2 = 2466) 


stereo = cv2.StereoSGBM(**stereo_parameters) 
disparity = stereo.compute(img left, img right).astype(np.float32) / 16 


若 能 完美 地 计算 视差 数组 disparity, 则 能 满足 等 式 : left_img[y, x] == right_img[y, x+disparity[y, 
x]]。 下面 我 们 用 前 面 介绍 过 的 remap0 将 右 眼 图 像 中 的 像素 移 到 与 其 对 应 的 左 眼 图 像 的 坐标 之 上 ， 
结果 如 图 9-19 所 示 。 其 中 ， 左 图 为 直接 将 左右 两 幅 图 像 琶 加 之 后 的 结果 ,可 以 看 出 不 同 的 位 置 
有 不 同 的 视差 错位 。 中 图 以 次 度 图 像 显 示 视差 信息 ， 颜 色 越 浅 表示 视差 越 大 ， 距 离 越 近 。 右 图 
是 将 右 眼 图 像 经 过 remap0 处 理 之 后 再 县 加 到 左 眼 图 像 之 上 , 可 以 看 到 两 幅 图 几乎 完美 地 重合 了 。 


h, w = img_left.shape[:2] 

ygrid, xgrid = np.mgrid[:h，:w] 

ygrid = ygrid.astype(np.float32) 

xgrid = xgrid.astype(np.float32) 

res = cv2.remap(img right, xgrid - disparity, ygrid, cv2.INTER_LINEAR) 


fig, axes = pl.subplots(1, 3, figsize=(9, 3)) 
axes[6].imshow(img_left) 
axes[6].imshow(img_right，alpha=6.5) 
axes[1].imshow(disparity, cmap="gray") 
axes[2].imshow(img_left) 
axes[2].imshow(res，alpha=6.5) 
for ax in axes: 

ax.axis("off") 
fig.subplots_adjust(8, 0, 1, 1, 6, 8) 


图 9-19 用 remap 重合 左右 两 幅 图 像 
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维 


下 面 设置 焦距 与 相机 间距 的 乘积 Bf, 根据 视差 信息 计算 每 个 点 在 三 维 空间 中 的 位 置 。 该 三 


乙 有 


& 标 以 两 台 照 相机 的 连 线 为 原点 ， 连 线 方向 为 入 轴 ， 图 像 的 上 方 为 了 轴 ， 照 相机 的 前 方 为 
Bf = w+ 6.8 


x = (xgrid - w * 6.5) 
y= (ygrid - h * 8.5) 
d = (disparity + 1e-6) 
z= (Bf / d).ravel() 
x = (x / d).ravel() 
y= -(y / d).ravel() 


为 了 剔除 一 些 噪声 数据 ， 我 们 只 显示 距离 相机 在 30 以 内 的 坐标 点 ， 每 个 点 对 应 的 颜色 从 


img_left 图 像 获 取 。 


PolyData 对 象 的 points 上 
性 为 每 个 点 的 颜色 ， 注 i 


mask = (z > 6) & (z < 36) 
points = np.c_[x, y, z][mask] 
colors = img_left.reshape(-1, 3)[mask] 


有 了 点 的 坐标 和 颜色 ， 就 可 以 使 用 TVTK 的 PolyData 将 这 些 数据 显示 为 点 云 。 所 创建 的 
性 为 所 有 点 的 坐标 ， 为 了 对 每 个 点 进行 着 色 ， 设 置 point_data.scalars 属 
这 里 需要 使 用 单字 节 的 数组 表示 RGB 颜色 。 该 PolyData 对 象 只 有 顶 


局 \ 


点 (verts)， 没 有 边线 和 面 ， 每 个 顶点 与 points 中 的 一 个 坐标 相对 应 。 


from tvtk.api import tvtk 
from tvtk.tools import ivtk 
from pyface.api import GUI 


poly = tvtk.PolyData() 

poly.points = points # 所 有 坐标 点 

poly.verts = np.arange(len(points)).reshape(-1，1) 扑 所 有 顶点 与 坐标 点 对 应 
poly.point _data.scalars = colors.astype(np.uint8) # 坐 标点 的 颜色 ， 必 须 使 用 uint8 


m = tvtk.PolyDataMapper() 
m.set_input_data(poly) 
a = tvtk.Actor(mapper=m) 


from scpy2 import vtk_scene, vtk_scene to array 
scene = vtk_scene([a], viewangle=22) 
scene.camera.position = (6 ，26，-66) 
scene.camera.view up = 8, 1, 0 

%array_image vtk_scene to array(scene) 


= ee 
图 920 使 用 VTK 显示 三 维 点 云 


下 面 的 程序 在 Notebook 中 用 %gui 启动 GUI 线程， 打开 三 维 窗口 来 观察 点 云 : 


DVD 


A sopy2.opencvstereo_demo; 使 用 双 目 视觉 图 像 计算 深度 信息 的 演示 程序 


%Bui qt 

from scpy2.tvtk.tvtkhelp import ivtk_scene 
scene = ivtk_scene([a]) 

scene. scene.isometric_view() 
scene.scene.camera.position = (0 , 20, -50) 
scene.scene.camera.view up = 60, 1, 8 


9.4 图 像 识别 


A 与 本 节 内 容 对 应 的 Notebook 为 : 09-opencv/opencv-400-identifyipynb。 


DVD 
OpenCV 除了 能 够 对 图 像 进行 各 种 处 理 和 变换 之 外 ， 还 提供 了 大 量 的 图 像 识 别 函数 。 本 节 
介绍 一 些 常用 的 图 像 识 别 和 分 割 算 法 。 
9.4.1 用 霍 夫 变换 检测 直线 和 圆 
堆 夫 变换 (Hough transform) 能 够 找 出 图 像 中 的 直线 和 贺 。OpenCV 提供 了 如 下 三 种 霍 夫 变 
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换 相关 的 函数 : 

e HoughLines: 检测 图 像 中 的 直线 。 

e HoughLinesP: 检测 图 像 中 的 直线 段 。 

e HoughCircles: 检测 图 像 中 的 圆 。 

下 面 的 程序 演示 了 使 用 HoughLinesPO 和 HoughCircles0 进 行 线段 和 圆 的 检测 。 它 们 的 各 种 
参数 均 可 以 在 控制 面板 中 进行 调整 ， 运 行 界 面 如 图 921 所 示 。 


会 scpy2.opencvhough_demo: 霍 夫 变 换 演 示 程 序 ， 可 通过 界面 调节 函数 的 所 有 参数 。 


DVD 


[sfipg 
ff 了 | 保有 设置“ | 有 了 设 着 
| [ER 站 
标准 万 区 : 01 一品 5.0 0.57236 
结果 :加 

二 性 刚 玉 扑 

风量 2: 23.87 ”人 © DIB.87 7387 
显示 引 果 : 加 


直 拓 检 出 mm 
俩 可 分 关系 ( 像 天) 1.0 10.0 1.0 
角度 分 裤 罕 ( 肖 度 ): 0.1 一 So 10 


交 二 :1 分 -100 60 
最 小 长 麻 : 0 一 下 100 10 
最 大 空 对 :0 1] 20 10 
图 检 别 
分 关 率 (像素 ) 1.0 “人 5.0 1.3164 
国 必 最 小 8 宛 ( 像 素 ): 1.0 一 ~ 100.0 200 


全 DO 二 二 相国 


图 921 用 截 夫 变换 寻找 图 像 中 的 直线 和 圆 
1. 检测 线段 


为 了 了解 HoughLinesPO 的 每 个 参数 的 含义 ， 让 我 们 先 学 习 直 线 霍 夫 变 换 的 原理 。 
对 于 图 像 中 的 每 条 直线 都 可 以 用 方程 y = kx + m 表 示 。 由 于 参数 k 和 直线 与 X 轴 的 夹 角 之 
间 并 不 是 线性 关系 , 因此 我 们 将 直线 方程 改写 为 以 直线 到 原点 的 距离 r- 和 直线 与 X 轴 的 夹 角 9 为 


参数 ， 如 图 9-22 所 示 。 
cosQ r 
y= 人 6 下 (a) 


图 9-22 用 r 和 9 表示 的 直线 


经 过 图 像 中 某 个 白色 的 点 (xo,yo) 的 直线 参数 r 和 8 满足 下 面 的 关系 : 
r= Xxo:Ccos0+yo:sing 

它 是 一 条 6 一 r 空 间 中 的 正弦 曲线 。 所 谓 霍 夫 变 换 ， 就 是 指 对 于 原始 图 像 中 的 每 个 白色 点 
(Xo,yo)， 绘 制 它 们 在 9 一 r 空 间 中 所 对 应 的 正弦 曲线 。 众 多 正弦 曲线 的 相交 点 (80,ro) 就 是 原始 
图 像 中 的 一 条 直线 。 图 9-23 是 一 个 简单 的 例子 。 其 中 ， 左 图 中 的 4 个 圆 点 构成 一 条 直线 ， 右 图 
中 与 它们 对 应 的 正弦 曲线 (图 中 的 实 线 ) 相 交 于 一 点 , 而 与 三 角 点 对 应 的 正弦 曲线 (虚线 ) 则 不 经 过 
此 点 。 

在 实际 计算 时 ， 我 们 使 用 一 幅 表示 8 一 r 空 间 的 灰 度 图 像 作为 累加 器 ， 用 其 中 每 个 点 对 经 
过 此 点 的 正弦 曲线 进行 计数 。 然 后 通过 阅 值 找 出 累加 器 中 的 所 有 峰值 点 ， 这 些 峰值 点 所 对 应 的 
9 一 T 坐 标 就 是 原始 图 像 中 的 直线 参数 。 


12 
9 @ 10| 
8 上 8 
时 © 6p 

4 
6 上 

2 
5 . 0 
4 上 -2 
3 @ [ < 


-6 
0 1 2 3 4 5 00 05 10 15 20 25 3.0 


图 9-23 霍 夫 变换 示意 图 


HoughLinesP0 的 调用 参数 如 下 : 


HoughLinesP(image, rho, theta, threshold[, lines[, minLineLength[, maxLineGap]]]) 


迷 兴 兰 糖 阅 普 冰 户 麻 国 -ADOuedO 


1355 


溃 兴 涯 糖 阅 吉 月 六 灾 园 -AOuedO 


，Python 科学 计算 (第 2 版 ) 


其 中 image 参数 为 进行 直线 检测 的 图 像 , tho 和 theta 参数 分 别 为 累加 器 中 每 个 点 所 表示 的 r 


和 8 的 大 小 。 其 中 mho 的 单位 是 像素 点 ， 而 theta 是 以 弧度 表示 的 角度 。 值 越 小 则 累加 器 的 尺寸 


越 大 ， 最 后 找 出 的 直线 的 参数 的 精度 越 高 ， 但 是 运算 时 间 也 越 长 。threshold 参数 是 在 累加 器 中 
寻找 峰值 时 所 使 用 的 阔 值 ， 即 只 有 大 于 此 值 的 峰值 点 才 被 当 作 与 某 条 直线 相对 应 。 由 于 
此 minLineLength 参数 指定 线段 的 最 小 长 度 ， 而 


HoughLinesP0 检 测 的 是 图 像 中 的 线段 ， 因 

maxLineGap 参数 则 指定 线段 的 最 大 间隙 。 当 

为 一 条 线段 。 
HoughLinesP0 的 返回 值 是 一 个 形状 为 (1， 


有 多 条 线段 共 线 时 , 间隙 小 于 此 值 的 线段 将 被 合并 


N, 4 的 数组 ， 其 中 N 为 线段 数 , 第 二 轴 的 4 个 元 素 


为 线段 的 起 点 和 终点 : xX0、y0、xl、y1。 在 下 面 的 程序 中 使 用 matplotlib 的 LineCollection 绘制 这 


些 线段 ， 效 果 如 图 9-24 所 示 。 


图 9-24 使 用 HoughLinesPO 检 测 图 像 中 的 直线 


由 于 HoughLinesPO 需 要 针对 二 值 图 像 进行 操作 ， 因 此 先 用 Canny0 对 灰 度 图 像 进行 边缘 检 
测 ， 得 到 一 幅 二 值 图 像 img_binary。Canny0 有 两 个 阅 值 参数 ， 它 们 直接 影响 边缘 检测 的 结果 。 
阀 值 越 小 ， 从 图 像 中 检测 出 来 的 边缘 细节 越 多 。 


img = cv2.imread("building.jpg"，cv2.IMREAD_GRAYSCALE) 


img_binary = cv2.Canny(img, 160, 255) 


lines = cv2.HoughLinesP(img_binary，rho=1，theta=np.deg2rad(6.1)， 
threshold=96, minLineLength=33, 


maxLineGap=4) 


fig, ax = pl.subplots(figsize=(8, 6)) 
pl.imshow(img, cmap="gray") 


from matplotlib.collections import LineCollection 
lc = LineCollection(lines.reshape(-1, 2, 2)) 


ax.add_collection(1lc) 
ax.axis("off") 
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2. 检测 圆 形 


检测 圆 形 的 HoughCircles0 的 参数 如 下 : 


HoughCircles(image, method, dp, minDist 
[, circles[, param1l[, param2[, minRadius[, maxRadius]]]]]) 


CV_HOUGH_GRADIENTP。 


可 能 会 漏 掉 一 些 结果 。 


- 半 。param2 参数 是 累加 器 


参数 指定 圆 形 的 半径 范围 ， 缺 省 都 为 0 表示 范围 不 限 。 
- 圆 形 有 三 个 参数 一 圆心 坐标 和 半径 ， 如 果 直 接 使 用 三 维 累加 器 ， 则 计算 效率 太 低 。 


其 中 method 参数 为 圆 形 检测 的 算法 ， 目 前 OpenCV 中 只 实现 了 一 种 检测 算法 : 


dp 参数 和 直线 检测 中 的 tho 参数 类 似 ， 决 定 了 检测 的 精度 ，dp=1 


时 累加 器 的 分 辨 率 和 输入 图 像 相 同 ， 而 dp=2 时 累加 器 的 分 辨 率 为 输入 图 像 的 一 半 。minDist 参 
数 是 检测 到 的 所 有 圆 的 圆心 之 间 的 最 小 距离 ， 当 它 过 小 时 会 检测 出 很 多 近似 的 圆 形 ， 若 过 大 则 


paraml 和 param2 参数 是 和 检测 算法 相关 的 参数 。 在 HoughCircles0 内 部 会 进行 边缘 检测 ， 
中 paraml 参数 相当 于 边缘 检测 Canny0 的 第 二 个 阔 值 ，Canny0 的 第 一 个 阔 值 自动 设置 为 它 的 


上 的 闵 值 ， 它 的 值 越 小 检测 出 的 圆 形 越 多 。minRadius 和 maxRadius 


并 且 由 于 累加 器 中 每 个 点 的 累计 次 数 不 够 多 ,会 出 现 很 多 局 部 峰值 ， 也 会 影响 检测 结果 。 因 此 


并 
和 
9 


ircles0 使 用 一 种 被 称 作 霍 
(GD 首先 将 原始 图 像 经 过 


梯度 的 算法 进行 圆 形 检测 。 它 的 计算 步骤 如 下 : 
边缘 检测 算法 获得 一 张 边 缘 图 像 , 这 里 使 用 Canny0 进 行 边 缘 检 测 ， 


并 使 用 paraml 参数 指定 闵 值 。 


假设 白色 点 为 圆周 上 的 某 点 ， 


O) 对 于 边缘 图 像 中 每 个 白色 的 点 (x0,y0) 计 算 其 局 部 梯度 ,这 里 使 用 Sobel0 进 行 梯度 计算 。 


经 过 (x0, y0) 沿 着 梯度 方向 的 直线 将 通过 圆心 。 


(3) 对 梯度 直线 上 离 点 (x0, y0) 的 距离 在 minRadius 和 maxRadius 之 间 的 所 有 点 ， 在 累加 器 中 


进行 计数 。 


(4) 累加 器 中 大 于 阔 值 param2 的 局 部 峰值 为 图 像 中 所 检测 出 的 圆 形 的 中 心 。 


然后 对 于 每 个 检测 出 的 


吏 心 ， 在 边缘 图 像 中 寻找 离 它 距离 相同 的 白色 点 的 集合 ， 并 计算 出 


半径 。 如 果 此 圆心 有 足够 多 的 白色 点 支持 ， 那 么 它 就 是 真正 的 圆心 。 
HoughCircles0 返 回 一 个 形状 为 4,N, 3) 的 数组 ， 其 中 N 为 圆 形 的 个 数 , 第 2 轴 上 的 三 个 元 素 


分 别 为 圆心 的 X 轴 坐标 、 立 轴 坐 标 和 圆 形 的 半径 。 


在 下 面 的 程序 中 (效果 妇 


图 9-25 所 示 ), @ 为 了 获得 较 好 的 边缘 检测 结果 , 调用 GaussianBlur0 


对 图 像 进行 模糊 处 理 。@ 使 / 


EllipseCollection 快速 绘制 多 个 圆 形 。 


img = Cv2.imread("coins. 


png", cv2.IMREAD GRAYSCALE) 


img_blur = cv2.GaussianBlur(img, (06, 6), 1.8) © 
circles = cv2.HoughCircles(img blur, cv.CV_HOUGH_GRADIENT, dp=2.0, minDist=28.0, 
param1=170, param2=44, minRadius=16, maxRadius=40) 


x, y, r = circles[6].T 
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fig, ax = pl.subplots(figsize=(8, 6)) 

pl.imshow(img, cmap="gray") 

from matplotlib.collections import EllipseCollection 

ec = EllipseCollection(widths=2*r, heights=2*r, angles=0, units="xy", © 
facecolors="none", edgecolors="red", 
transOffset=ax.transData, offsets=np.c_[x, y]) 

ax.add_collection(ec) 

ax.axis("off") 


图 9-25 使 用 HoughCircles0 检 测 图 像 中 的 圆 形 


9.4.2 图像 分 割 
- 般 的 图 像 中 颜色 丰富 、 信 息 繁 杂 ， 不 利于 计算 机 进行 图 像 识 别 。 因 此 通常 会 使 用 图 像 分 
制 技术 ， 将 图 像 中 相似 的 区 域 进行 合并 ， 使 得 图 像 更 容易 理解 和 分 析 。 本 节 将 介绍 OpenCV 中 
提供 的 两 种 常见 的 图 像 分 割 算 法 。 
1. Mean-Shift 算法 
pyrMeanShiftFiltering0 使 用 Mean-Shift 算法 对 图 像 进行 分 割 。 它 的 调用 参数 如 下 : 


pyrMeanShiftFiltering(src, sp, sr[, dst[, maxLevel[, termcrit]]]) 


pyrMeanShiftFiltering0 以 src 中 的 每 个 点 (x, y) 为 初始 点 ， 寻 找 与 它 邻 近 的 点 。 这 里 的 邻近 点 
必须 满足 下 面 两 个 条 件 : 
e 在 以 (x,y) 为 中 心 的 边 长 为 2*sp 的 正方 形 范围 内 。 
e@ 和 点 (x, y) 的 颜色 距离 小 于 sr 参数， 也 就 是 将 3 个 颜色 通道 当 作 三 维 向 量 ， 在 此 颜色 空 
间 中 ， 两 个 点 的 距离 小 于 sr。 
然后 计算 邻近 点 的 坐标 平均 值 和 颜色 平均 值 ， 并 以 此 平均 点 再 次 寻找 图 像 中 的 邻近 点 。 如 


此 人 迭代 下 去 , 直到 达到 迭代 终止 条 件 。 将 和 迭代 终止 时 的 颜色 平均 值 写 进 图 像 dst 的 坐标 点 Cx y)。 
在 OpenCV 中 ， 所 有 的 迭代 算法 都 可 以 通过 termcrit 设置 迭代 相关 的 参数 ， 它 是 一 个 有 三 
个 元 素 的 元 组 : (type, maxCount epsilon)。maxCount 为 最 大 迭代 次 数 ， epsilon 为 碗 代 终 止 时 的 误 
差 ， 即 两 次 迭代 结果 的 差 小 于 此 值 时 将 结束 计算 ，type 指定 哪 种 终止 条 件 有 效 ，3 表示 两 种 终 
止 条 件 都 有 效 。 
max_level 参数 指定 使 用 图 像 金字 塔 进行 计算 。 当 使 用 图 像 金字 塔 时 ,， 先 对 低 分 辨 率 的 图 像 
进行 分 割 计 算 ， 然 后 利用 此 结果 对 高 分 辩 率 的 图 像 进行 分 割 。 

下 面 是 使 用 pyrMeanShiftFiltering0 进 行 图 像 分 割 的 演示 程序 ， 效 果 如 图 9-26 所 示 。 


fig, axes = pl.subplots(1, 3, figsize=(9, 3)) 
img = cv2.imread("fruits.jpg") 


srs = [26，46，86] 
for ax, sr in zip(axes, srs): 
img2 = cv2.pyrMeanShiftFiltering(img, sp=20, sr=sr, maxLevel=1) 
ax.imshow(img2[:,:,::-1]) 
ax.set_axis off() 
ax.set title("sr = {}".format(sr)) 


fig.subplots_adjust(8.62, 80, 6.98, 1, 80.02, 0) 


sr=20 sr=40 
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图 9-26 使 用 pyrMeanShiftFiltering0 进 行 图 像 分 割 ， 从 左 到 右 参数 sr 分 别 为 20、40、80 


2. 分 水 岭 算 法 

分 水 岭 算法 (Watershed) 的 基本 思想 是 将 图 像 的 梯度 当 作 地 形 图 。 图 像 中 变化 小 的 区 域 相 
于 地 形 图 中 的 山谷， 而 变化 大 的 区 域 相当 于 山峰 。 从 指定 的 几 个 初始 区 域 同 时 开始 向 地 形 
同 颜色 的 水 ， 水 面 上 升 逐 渐 淹没 山谷 ， 并 且 范 围 逐 渐 扩大 。 请 注意 这 里 所 说 的 “颜色 ”是 月 
区 分 不 同 区 域 的 一 个 数值 ， 和 图 像 的 颜色 没有 任何 关系 。 当 所 有 区 域 的 水 面 连接 到 一 起 时 ， 
得 到 的 不 同 颜色 的 灌溉 区 域 就 是 最 终 的 图 像 分 割 结 果 ， 最 终 的 分 割 区 域 数 和 初始 区 域 数 相同 。 
watershed0 实 现 此 算法 ， 它 的 调用 形式 如 下 : 


澡 米 二星 


watershed(image, markers) 
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image 参数 是 需要 进行 分 割 处 理 的 图 像 ， 它 必须 是 一 个 3 通道 8 位 图 像 。markers 参数 是 一 

个 32 位 整数 数组 ， 其 大 小 必须 和 image 相同 。markers 中 值 大 于 0 的 点 构成 初始 灌溉 区 域 ， 其 

值 可 以 理解 为 水 的 颜色 。 调 用 watershed0 之 后 ，markers 中 几乎 所 有 的 点 都 将 被 赋值 为 某 个 初始 
区 域 的 值 ， 而 在 两 个 区 域 的 境界 线 上 的 点 将 被 赋值 为 -1。 

耐用 watershed0 对 如 图 9-27( 左 ) 所 示 的 药丸 图 片 进行 分 割 。 图 中 每 片 药丸 上 的 蓝 色 区 域 

为 


折 
为 使 用 下 面 的 程序 找到 的 局 域 最 亮 像素 。 我 们 使 用 这 些 像素 作为 每 片 药丸 的 初始 灌溉 区 域 。 
了 让 每 片 药丸 只 有 一 个 局 域 最 亮 像素 , @@ 先 调用 blur0 对 药丸 的 灰 度 图 像 进行 模糊 处 理 ， 这 样 可 
以 有 效 消 除 噪 声 ， 减 少 局 域 最 值 的 个 数 。@ 我 们 只 希望 找到 药丸 区 域 对 应 的 局 域 最 亮 像素 ， 因 
此 对 灰 度 图 像 进行 二 值 化 处 理 ，img_binary 中 白色 区 域 与 药丸 对 应 。@ 局 域 最 亮 像素 就 是 比 周 
边 临 近 的 像素 都 亮 的 像素 ， 使 用 dilate0 对 灰 度 图 像 进行 膨胀 处 理 ， 将 每 个 像素 都 设置 为 邻近 像 
素 中 的 最 大 值 ， 然 后 与 原始 图 像 中 的 值 比较 ， 如 果 值 保持 不 变 ， 该 像素 即 为 局 域 最 亮 像 素 。 


可 


img = cv2.imread("pills.png") 

img_ gray = cv2.cvtColor(img, cv2.COLOR_ BGR2GRAY) 

img_gray = cv2.blur(img gray, (15, 15)) © 

_, img binary = cv2.threshold(img gray, 158, 255, cv2.THRESH_BINARY) © 
peaks = img gray == cv2.dilate(img gray, np.ones((7, 7)), 1) © 

peaks &= img_ binary 

peaks[1, 1] = True @ 


from scipy.ndimage import label 
markers, count = label(peaks) © 
Cv2.watershed(img, markers) 


@@ 接 下 来 需要 对 peaks 中 的 每 块 区 域 进行 编号 , OpenCV 中 没有 提供 相应 的 函数 , 我 们 可 以 
使 用 SciPy 的 图 像 处 理 一 节 中 介绍 的 labels0 对 每 块 区 域 进行 编号 。 然 后 使 用 编号 之 后 的 结果 作 
为 watershed0 的 markers 参数 。@ 由 于 分 水 岭 算 法 需要 我 们 在 每 块 分 割 区 域 中 都 设置 初始 值 ，@ 
因此 为 了 区 分 背景 与 药丸 ， 在 背景 区 域 中 的 某 点 之 上 也 需要 设置 初始 值 。 

watershed0 采 用 分 水 岭 算法 将 markers 中 值 为 零 的 元 素 设置 为 某 个 初始 区 域 的 值 。 在 markers 
中 -1 表示 区 域 边界 ,而 1 到 count 则 为 分 割 之 后 的 每 个 区 域 的 编号 。 图 9-27( 右 ) 显 示 了 对 这 些 编 
号 涂 色 之 后 的 结果 。 图 中 将 markers[1, 1] 对 应 的 编号 设置 为 白色 , 将 -1 对 应 的 编号 设置 为 黑色 ， 
将 其 余 的 编号 设置 为 随机 颜色 。 


scpy2.opencv.watershed_demo: 分 水 岭 算法 的 演示 程序 。 用 鼠标 在 图 像 上 绘制 初始 区 
(OY 域 ， 初 始 区 域 将 使 用 “当前 标签 ”填充 ， 按 鼠标 右键 切换 到 下 一 个 标签 。 每 次 绘制 
初始 区 域 之 后 ， 将 显示 分 割 结果 。 


图 9-27 使 用 watershed 分 割 药丸 


9.4.3 SURF 特征 匹配 


SURF 是 一 种 快速 提取 图 像 特 征 点 的 算法 , 它 所 提取 的 图 像 特征 具 有 缩放 和 旋转 的 不 变性 ， 
而 且 它 对 图 像 的 灰 度 变 化 也 不 敏感 。 对 SURF 算 法 的 详细 介绍 超出 了 本 书 的 范围 ， 这 里 只 简单 
地 介绍 OpenCV 中 SURF 类 的 用 法 。 

在 下 面 的 程序 中 ，@ 首 先 读 入 一 幅 灰 度 图 像 img_gray，@ 然 后 创建 SURFO 对 象 ， 并 设置 
hessianThreshold 和 nOctaves 参数 ， 这 两 个 参数 为 计算 关键 点 的 参数 ，hessianThreshold 越 大 则 关 
键 点 的 个 数 越 少 ，nOctaves 越 大 则 关键 点 的 尺寸 范围 越 大 。@ 调 用 detect0 方 法 从 灰 度 图 像 中 检 
测 出 关键 点 。 它 返回 一 个 列表 key_points， 其 中 每 个 元 素 都 是 一 个 保存 关键 点 信息 的 KeyPoint 
对 象 。 

@ 根 据 关键 点 的 size 属性 按照 从 大 到 小 的 顺序 排列 关键 点 。@ 调 用 drawKeypoints0 可 以 在 
图 像 上 绘制 关键 点 ， 这 里 为 了 使 用 红色 绘制 关键 点 ， 将 灰 度 图 像 通过 cvtColor0 转 换 成 灰色 的 
RGB 格式 的 图 像 ， 结 果 如 图 9-28( 左 ) 所 示 。 图 中 红色 圆圈 的 大 小 显示 关键 点 的 size 属性 ， 而 半 
径 线段 的 方向 显示 了 关键 点 的 方向 属性 angle。 

图 9-28( 右 ) 显 示 了 前 25 个 最 大 的 关键 点 ， 每 个 关键 点 对 应 的 小 图 块 已 经 根据 angle 属性 旋 
转 过 。 由 此 可 以 大 致 观察 SURF 算法 检测 出 的 关键 点 对 应 的 图 像 模 式 。 


img_grayl = cv2.imread("lena.jpg", cv2.IMREAD GRAYSCALE) © 
surf = cv2.SURF(2000, 2) ©@ 

key_points1 = surf.detect(img gray1) © 
key_points1.sort(key=lambda kp:kp.size, reverse=True) @ 


img_color1 = cv2.cvtColor(img grayl, cv2.COLOR_GRAY2RGB) 
cv2.drawKeypoints(img color1, key_ points1[:25], img color1, color=(255, 6, 8), © 
flags=cv2.DRAW MATCHES_FLAGS_ DRAW RICH_KEYPOINTS) 
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图 9-28 SURFO 找 到 的 关键 点 和 每 个 关键 点 的 局 部 图 像 


通过 比 对 关键 点 对 应 的 图 块 ， 可 以 在 两 幅 图 像 中 寻找 相似 的 点 。 但 是 直接 比较 图 块 的 像素 
值 并 不 明智 , SURF 算法 为 每 个 关键 点 计算 128 个 特征 , 这 些 特征 与 关键 点 的 大 小 和 方向 无 关 。 
下 面 调用 SURF.compute0 计 算 关键 点 列表 key_pointsl 对 应 的 特征 向 量 features1; 


_，featuresl = surf.compute(img gray1l, key_points1) 
features1. shape 
(145, 128) 


还 可 以 调用 SURF.detectAndCompute0 直 接 计 算 关键 点 以 及 与 之 对 应 的 特征 向 量 : 


img_gray2 = cv2.imread("lena2.jpg", cv2.IMREAD GRAYSCALE) 
img_color2 = cv2.cvtColor(img gray2, cv2.COLOR_GRAY2RGB) 

surf2 = cv2.SURF(2860, 2) 

key_points2, features2 = surf2.detectAndCompute(img gray2, None) 


通过 比 对 featuresl 和 features2， 可 以 找到 两 幅 图 像 中 最 接近 的 关键 点 。 在 本 例 中 由 于 关键 
点 数 不 多 ， 可 以 使 用 穷 举 法 计算 所 有 关键 点 对 的 距离 。 如 果 关 键 点 数 很 多 ， 可 以 使 用 OpenCV 
提供 的 FlannBasedMatcher 寻找 匹配 的 特征 


问 量 。 


€3 http://docs.opencv.org/modules/flann/doc/flann.html 
OpenCV 关于 FLANN 的 文档 。 


在 下 面 的 程序 中 ，@ 创 建 FannBasedMatcher 对 象 时 传递 两 个 字典 index_params 和 
search_params， 分 别 设置 其 索引 参数 和 搜索 参数 。 这 两 个 参数 在 C+ 语言 中 分 别 为 IndexParams 
和 SearchParams 对 象 。 索 引 参 数 的 algorithm 属性 决定 搜索 算法 ， 候 选 值 如 表 9-2 所 示 。 
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表 9-2 搜索 算法 及 说 明 


算法 名 说 明 
FLANN_INDEX LINEAR 穷 举 法 
FLANN_INDEX_KDTREE 使 用 多 棵 随机 Kd 树 
FLANN_INDEX_KMEANS 使 用 分 层 k-means 树 
FLANN_INDEX_COMPOSITE 结合 使 用 上 述 两 种 算法 
FLANN_INDEX_LSH 使 用 multi-probe LSH 算 法 
FLANN_INDEX_AUTOTUNED 自动 选择 合适 的 算法 


每 种 算法 都 有 一 些 可 调节 的 参数 ， 在 本 例 中 使 用 多 棵 随机 Kd 树 ， 通 过 trees 参数 设置 树 的 
个 数 为 5。 在 搜索 参数 中 checks 参数 决定 搜索 次 数 ， 该 值 越 大 结果 越 精确 。 

四 调用 knnMatch0 对 featuresl 中 的 每 个 特征 向 量 在 features2 中 搜索 k 个 最 近 的 特征 向 量 。 
这 里 设置 参数 k 为 1， 只 搜索 最 接近 的 特征 向 量 。 

FLANN_INDEX_KDTREE = 1 


index_params = dict(algorithm=FLANN_INDEX_KDTREE，trees=5) 
search_params = dict(checks=166) 


fbm = cv2.FlannBasedMatcher(index_params，search_params) © 
match_list = fbm.knnMatch(features1，features2，k=1) @ 


match_list 是 一 个 嵌 套 列表 , 它 的 长 度 等 于 features1.shape[0], 其 中 每 个 子 列表 的 长 度 等 于 k。 
子 列表 中 的 元 素 类 型 为 DMatch 对 象 , 其 distance 属性 保持 两 个 关键 点 特征 之 间 的 距离 , queryIdx 
属性 保存 featuresl 中 的 下 标 , trainIdx 属性 保存 features2 中 的 下 标 ,由 下 面 的 结果 可 知 与 features1[0] 
最 近 的 向 量 为 features2[21]， 距 离 为 0.41472: 


m= match_list[6][6] 
m.distance m.queryIdx m.trainIdx 


0.414721816778183821 


F 面 的 程序 通过 列表 推导 式 将 关键 点 的 坐标 、 匹 配 的 下 标 以 及 距离 都 转换 成 数组 ，@ 然 后 
获取 距离 最 小 的 50 对 关键 点 的 坐标 ， 在 图 9.29 中 用 直线 连接 这 些 匹 配 的 关键 点 。 由 图 929 可 
以 看 出 大 多 数 匹配 点 是 正确 的 ， 但 也 有 少数 匹配 错误 的 关键 点 。@ 为 了 技 到 两 幅 图 像 之 间 的 变 
换 矩阵 ， 可 以 使 用 findHomogrmaphy0， 它 的 前 两 个 参数 为 原 坐标 点 和 变换 之 后 的 坐标 点 ， 第 三 
个 参数 选择 算法 。 这 里 使 用 RANSAC 算法 ， 它 可 以 将 匹配 错误 的 关键 点 自动 剔除 。 
findHomography0 返 回 变换 矩阵 和 类 中 用 的 数组 mask, 其 中 0 表示 被 史 除 的 点 ,注意 形状 为 1)， 


在 实际 使 用 时 还 需要 将 其 转换 成 一 维 数组 。 在 图 9-29 中 用 蓝 色 直线 显示 被 剔除 的 匹配 点 。 
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也 请 读者 思考 如 何 利用 如 下 程序 得 到 的 matix 答 阵 将 变形 之 后 的 围 像 还 原 成 原始 图 像 . 


key_positions1 = np.array([kp.pt for kp in key_points1]) 
key_positions2 = np.array([kp.pt for kp in key_points2]) 


index1 = np.array([m[86].queryIdx for m in match_ list]) 
index2 = np.array([m[6].trainIdx for m in match list]) 


distances = np.array([m[8].distance for m in match_list]) 

best_index = np.argsort(distances)[:56] © 

matched_positions1 = key_positions1[index1[best_index]] 

matched_positions2 = key_positions2[index2[best_index]] 

matrix, mask = cv2.findHomography(matched_ positions1, matched positions2, cv2.RANSAC) @ 
SCcpy2.opencvsurf demo: SURF 图 像 匹配 演示 程序 。 用 鼠标 修改 右 侧 图 像 的 4 个 角 的 


名 刷 位 置 计算 出 透视 变换 之 后 的 图 像 ， 然 后 在 原始 图 像 和 变换 之 后 的 图 像 之 间 搜索 匹配 
点 ， 并 计算 透视 变换 的 矩阵 。 


图 9-29 显示 特征 匹配 的 关键 点 


9.5 “形状 与 结构 分 析 


A 与 本 节 内 容 对 应 的 Notebook 为 : 09-opencv/opencv-500-shapes.ipynb。 


从 二 值 图 像 提取 形状 信息 有 助 于 对 图 像 进行 更 高 级 的 处 理 和 识别 。 本 节 介绍 如 何 使 


findContours0 搜 索 图 像 中 的 轮廓 ， 并 对 其 进行 处 理 和 计算 。 
9.5.1 轮廓 检测 


findContours0 用 于 在 二 值 图 像 中 寻找 黑白 区 域 的 边界 轮廓 ， 并 返回 描述 轮廓 的 多 边 形 ， 它 


的 调用 形式 如 下 : 


findContours(image, mode, method[, contours[, hierarchy[, offset]]]) 


mode 参数 为 搜索 模式 ， 有 以 下 4 种 选项 : 

e@。 RETR_EXTERNAL: 只 返回 最 外 层 的 轮廓 。 

e RETR_LIST: 返回 所 有 的 轮廓 ， 但 是 不 建立 边界 的 霸 套 信息 。 

e。 RETR_CCOMP: 建立 一 层 嵌 套 信息 。 

e@ RETR_TREE: 建立 完整 翌 套 信息 。 

method 参数 为 轮廓 多 边 形 的 近似 方法 。 由 于 轮廓 信息 是 从 像素 点 阵 获 得 ， 因 此 不 够 平滑 ， 


可 以 指定 多 种 近似 方法 来 计算 更 平滑 、 点 数 更 少 的 轮廓 多 边 形 。 有 以 下 几 种 选项 ; 


e CHAIN_APPROX_NONE: 获取 轮廓 上 的 所 有 点 ， 不 做 任何 近似 处 理 

e。 CHAIN_APPROX_SIMPLE: 对 水 平 线 、 重 直线 以 及 对 角 线 做 近似 处 理 

e@ CHAIN_APPROX_TC89_L1,CHAIN_APPROX_TC89_KCOS: 对 整个 轮廓 进行 近似 处 理 ， 
从 而 获得 点 数 更 少 的 多 边 形 。 


A scpy2.opencvfindcontours_demo: 轮廓 检测 演示 程序 。 


在 下 面 的 例子 中 ， 首 先 读 入 一 幅 灰 度 图 像 ， 经 过 高 斯 模糊 、 边 缘 检 测 和 形态 学 闭 运算 之 后 


得 到 如 图 9-30( 左 ) 所 示 的 二 值 图 像 。 


img_coin = cv2.imread("coins.png", cv2.IMREAD COLOR) 

img_coin gray = cv2.cvtColor(img coin, cv2.COLOR_BGR2GRAY) 

img_coin_blur = cv2.GaussianBlur(img_coin_gray, (86, 8), 1.5, 1.5) 

img_coin binary = cv2.Canny(img_coin_blur.copy()，68，66) 

img_coin binary = cv2.morphologyEx(img_coin_binary, cv2.MORPH_CLOSE, 
np.ones((3, 3), "uint8")) 


于 图 像 中 没有 嵌 套 结构 ， 在 下 面 的 程序 中 使 用 RETR_EXTERNAL 模式 搜索 轮廓 ， 并 比 


较 各 种 轮廓 近似 选项 所 得 到 的 多 边 形 的 总 点 数 : 


for approx in ["NONE", "SIMPLE", "TC89 KCOS", "TC89 L1"]: 
approx_ flag = getattr(cv2, "CHAIN APPROX_{}".format(approx)) 


Coin_contours, hierarchy = cv2.findContours(img_coin_binary.copy(), 
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CV2.RETR_EXTERNAL, approx_flag) 
print "{}: {} ".format(approx, sum(contour.shape[8] for contour in coin_contours)), 


NONE: 3179 SIMPLE: 1579 TC89 KCOS: 849 TC89 L1: 862 


示 轮 廓 的 多 边 形 列表 和 轮廓 的 嵌 套 信息 。 其 中 每 个 多 边 形 都 
用 一 个 形状 为 ON,1,2) 的 32 位 整数 数组 表示 。 其 中 N 为 多 边 形 的 点 数 ， 第 1 轴 为 多 余 的 轴 。 

图 9-30( 左 ) 中 右上 下 角 处 的 噪声 也 会 被 检测 出 轮廓 ， 可 以 通过 下 面 的 公式 计算 每 个 轮廓 的 
圆 度 C， 从 而 删除 噪声 轮廓 ， 其 中 p 为 轮廓 的 周 长 ，a 为 轮廓 所 包围 的 面积 


findContours0 返 回 两 个 值 : 表 


轮廓 的 周 长 和 面积 可 以 通过 arcLength0 和 contourArea0 计 算 ， 为 了 计算 封闭 轮廓 的 周 长 ， 
需要 设置 arcLength0 的 第 二 Dee closed 为 True。 下 面 的 程序 找到 所 有 圆 度 在 0.8 一 12 之 间 的 
轮廓 , 并 调用 drawContours0 将 这 些 轮廓 绘制 在 彩色 图 像 mg_coin 之 上 。 其 第 三 个 参数 为 所 绘制 
轮廓 的 序号 ， 负 数 表 示 绘 制 所 有 的 轮廓 。 
def circularity(contour): 
perimeter = cv2.arcLength(contour，True) 


area = cv2.contourArea(contour) + le-6 
return perimeter * perimeter / (4 * np.pi * area) 


coin_contours = [contour for contour in coin_contours 
if 8@.8 < circularity(contour) < 1.2] 
cv2.drawContours(img_coin, coin_contours, -1, (255, 8, 0)) 


的 @@ 参 包罗 
@@g@O@ 负 国 


os 


图 9-30 显示 所 有 国度 在 0.8 到 12 之 间 的 轮廓 


使 用 RETR_TREE 搜索 模式 可 以 获取 轮廓 的 嵌 套 信息 。 在 下 面 的 程序 中 ，findContours0 返 
回 的 第 二 个 数组 中 保存 轮廓 的 嵌 套 信息 , 它 是 一 个 形状 为 (1,N, 4 的 数组 , 其 第 0 轴 的 长 度 为 1， 
为 多 余 的 轴 ，N 为 轮廓 的 个 数 。hierarchy[0,i :] 中 保存 与 轮廓 contours[] 对 惟 其 最 后 
一 个 轴 的 4 个 数据 的 含义 为 : 下 一 个 同 级 别 轮廓 的 下 标 、 上 一 个 同 级 别 轮廓 的 下 标 、 第 一 个 子 


hr 
bl 


轮廓 的 下 标 、 父 轮廓 的 下 标 。 


-1 表示 无 效 下 标 。 


img_pattern = cv2.imread("nested patterns.png") 


img_pattern gray = cv2.cvtColor(img pattern, cv2.COLOR BGR2GRAY) 
_, img pattern binary = cv2.threshold(img pattern gray, 180, 255, cv2.THRESH_ BINARY) 
contours, hierarchy = cv2.findContours(img pattern_binary.copy(), 


CV2.RETR_TREE, cv2.CHAIN APPROX_TC89 11) 
hierarchy.shape = -1, 4 


所 有 父 轮廓 下 标 为 -1 的 轮廓 就 是 图 像 中 最 外 层 的 轮廓 , 下 面 的 程序 找到 所 有 最 外 层 轮 廓 的 


下 标 : 


root_index = [i for i in range(len(hierarchy)) if hierarchy[i, 3] < 8] 


root_index 
[e, 7, 19] 


使 用 下 面 的 get_children0 可 以 获取 hierarchy 中 index 对 应 的 轮廓 的 所 有 子 轮廓 的 下 标 ， 
而 getLdescendant0 则 可 以 获得 所 有 棋 套 轮廓 的 层次 和 下 标 。 下 面 显示 下 标 为 0 的 轮廓 的 所 有 
其 套 轮廓 的 级 别 和 下 标 。 图 9-31 显示 了 所 有 的 轮廓 ， 并 用 颜色 映射 表 显 示 各 个 轮廓 对 应 的 


层次 。 
def get_children(hierarchy, index): 
first_child = hierarchy.item(index, 2) 
if first_child >= @: 
yield first_child 
brother = hierarchy.item(first_child, 8) 
while brother >= @: 
yield brother 
brother = hierarchy.item(brother, 8) 


def get_descendant(hierarchy, index, level=1): 
for child in get_children(hierarchy, index): 
yield level, child 


for item in get_descendant(hierarchy, child, level + 1): 


yield item 


print list(get_descendant(hierarchy, 8@)) 
[(1, 1), (2, 2), (3, 3), (2, 4), (3, 5), (3, 6)] 
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图 9-31 显示 轮廓 的 层次 结构 


9.5.2 轮廓 匹配 


通过 findContours0 获 取 轮 廓 之 后 ， 可 以 使 用 approxPolyDPO 对 其 进行 简化 ， 然 后 通过 
matchShapes0 比 较 两 个 简化 之 后 的 轮廓 之 间 的 近似 程度 。 

在 下 面 的 例子 中 ， 我 们 要 从 pattems.png 图 像 中 找到 与 targets.png 中 最 匹配 的 轮廓 。 首 先 获 
取 轮 廓 信息 ， 上 @ 并 将 所 有 轮廓 的 坐标 最 小 值 都 修改 为 0， 这 样 便于 使 用 matplotlib 绘制 轮廓 。@@ 
然后 调用 approxPolyDPO 对 轮廓 进行 近似 处 理 。 它 的 第 二 个 参数 为 近似 的 误差 允许 范围 ， 该 什 
越 大 ， 近 似 之 后 的 轮廓 的 点 数 越 少 。 第 三 个 参数 指示 轮廓 是 否 为 封闭 形状 。 由 于 patterns.png 中 
的 轮廓 都 是 标准 图 形 ， 而 targets.png 中 的 轮廓 为 手绘 图 形 ， 这 里 将 手绘 图 形 的 近似 误差 参数 设 
置 得 更 大 一 些 。 

img_patterns = cv2.imread("patterns.png", cv2.IMREAD GRAYSCALE) 

patterns, _ = cv2.findContours(img_patterns, cv2.RETR_EXTERNAL, cv2.CHAIN APPROX_SIMPLE) 


img_targets = cv2.imread("targets.png", cv2.IMREAD GRAYSCALE) 
targets, _ = cv2.findContours(img targets, cv2.RETR_EXTERNAL, cv2.CHAIN APPROX_SIMPLE) 


patterns = [pattern - np.min(pattern, 0, keepdims=True) for pattern in patterns] © 
targets = [target - np.min(target, 6, keepdims=True) for target in targets] 


patterns_simple = [cv2.approxPolyDP(pattern, 5, True) for pattern in patterns] ©@ 
targets_simple = [cv2.approxPolyDP(target, 8, True) for target in targets] 


matchShapesO 比 较 两 个 形状 的 近似 程度 。 它 的 第 二 个 参数 指定 比较 算法 , 有 三 种 算法 可 选 : 
CV_CONTOURS_MATCH_I1、 CV_CONTOURS_MATCH_I2 和 CV_CONTOURS_MATCH_B, 
这 些 算法 都 比较 轮廓 的 7 个 Hu 不 变量 ， 可 以 通过 HuMoments0 查 看 这 些 不 变量 的 值 。 其 中 13 
的 比较 公式 选择 各 个 不 变量 之 间 的 最 大 误差 作为 近似 程度 的 评分 ,在 本 例 中 使 用 该 方法 能 得 到 
最 佳 匹配 效果 。 具 体 的 公式 请 读者 参照 OpenCV 的 帮助 文档 。 


下 面 调用 matchShapes0 计 算 targets_simple[0] 和 pattems_simple 中 的 所 有 轮廓 之 间 的 近似 程度 。 
图 9-32 显示 了 每 两 组 轮廓 之 间 的 近似 评分 ， 并 用 红色 标 出 最 佳 匹 配 。 图 中 用 黑色 粗 线 描 绘 近 似 
之 后 的 轮廓 ， 用 填充 图 形 显 示 原 始 轮廓 。 由 结果 可 知 ， 形 状 的 旋转 方向 和 大 小 不 影响 轮廓 匹配 
结果 。 


El 


for method in [1, 2, 3]: 
method_str = "CV_CONTOURS MATCH_I{}".format(method) 
method = getattr(cv, method_str) 
scores = [cv2.matchShapes(targets_simple[8], patterns_simple[pidx], method, 8) 
for pidx in range(5)] 
print method_str, ", ".join("{: 8.4f}".format(score) for score in scores) 
CV_CONTOURS MATCH I1 11.3737, 8.3456, 8.6289， 1.6495， 6.6626 
CV_CONTOURS MATCH I2 4.8851, 2.2226， 6.6179， 08.3624, 8.6613 
CV_CONTOURS MATCH I3 8.9164, 0.4778, 0.0225, 0.4552, 6.6616 


0.8628 0.0221 0.0875 0.3939 0.1144 


0.9225 0.5160 0.0034 0.4407 0.0282 


0.7890 0.7661 0.8274 0.0185 0.8726 


0.9164 0.4778 0.0225 0.4552 0.0016 


” J 0.3808 5.4120 3.9073 1.7352 4.0285 


[. Yam+®@ 


图 9-32 使 用 matchShapes0 比 较 由 approxPolyDPO 近 似 之 后 的 轮廓 


9.6 类 型 转换 


A 与 本 节 内 容 对 应 的 Notebook 为 : 09-opencvopencv-600-type-convertipynb。 


U 


cv2 中 的 函数 所 需 的 参数 类 型 尽量 使 用 数组 或 Python 的 标准 数据 类 型 ， 因 此 在 cv2 模块 
f 没 有 OpenCV 的 CH+ API 中 的 Mat、Point、Size、Vec 等 各 种 数据 类 型 ， 而 是 用 列表 、 元 组 或 
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数组 表示 这 些 类 型 。 调 用 cv2 模块 中 的 函数 比 使 用 OpenCV 的 CH+ API 更 加 便捷 ， 然 而 需要 了 

解 cv2 模块 的 数据 类 型 转换 规则 ， 才 能 把 正确 的 对 象 传递 给 函数 。 作 为 本 章 的 最 后 一 节 ， 让 我 

们 看 看 在 cv2 模块 内 部 如 何 实现 Python 对 象 和 C++ 对 象 之 间 的 相互 转换 。 

9.6.1 分 析 cv2 的 源 程序 
为 了 了 解 cv2 模块 的 数据 转换 工作 ， 需 要 分 析 其 源 程序 。 将 OpenCV 的 源 程序 解压 之 后 ， 

可 以 在 opencWmodules\python\src2 路 径 下 找到 相关 的 源 程序 。cv2 中 各 个 包装 函数 是 通过 cv2.py 


自动 生成 的 。 在 命令 行 中 切换 到 src2 目录 下 ， 并 运行 命令 "python cv2.py ."， 即 可 在 该 目录 下 生 
成 OpenCV 的 包装 函数 。 


[@ codes\pyopencv_src: 为 了 方便 读者 查看 cv2 模块 的 源 代码 ， 本 书 提供 了 自动 生成 的 源 
[ID 代码 。 若 读者 遇 到 参数 类 型 不 确定 的 情况 ， 可 以 查看 这 些 文件 中 相应 的 函数 。 


所 有 的 包装 函数 都 在 自动 生成 的 pyopencv_generated_funcsh 中 定义 ， 而 这 些 包 装 函数 会 调 
用 cv2.cpp 中 的 众多 pyopencv_ to0 和 pyopencvy_from0 函 数 以 实现 Python 和 OpenCV 的 各 种 类 型 转 
换 工 作 。 若 不 能 确定 包装 函数 使 用 何 种 Python 数据 类 型 ， 可 以 查看 包装 函数 的 内 容 。 例 如 下 面 
是 OpenCV 文档 中 关于 line0 的 说 明文 档 : 


C++: void line(Mat& img, Point pt1, Point pt2, const Scalar& color, 
int thickness=1, int lineType=8, int shift=6) 
Python: cv2.line(img, pt1, pt2, color[, thickness[, lineType[, shift]]]) -> None 


我 们 需要 知道 cv2.line0 在 调用 C++ 的 line0 函 数 时 做 了 哪些 类 型 转换 工作 。 下 面 是 
pyopencv_generated_funcs.h 中 该 函数 的 源 代码 : 


static PyObject* pyopencv_line(PyObject* , PyObject* args, PyObject* kw) 
{ 
PyObject* pyobj_img = NULL; 
Mat img; 
PyObject* pyobj_ pt1 = NULL; 
Point pt1; 
PyObject* pyobj_pt2 = NULL; 
Point pt2; 
PyObject* pyobj_color = NULL; 
Scalar color; 
int thickness=1; 
int lineType=8; 
int shift=6; 


const char* keywords[] = { "img"，"pt1"，"pt2"，"color"， "thickness", "lineType", 


"shift"，NULL }; 
if( PyArg_ParseTupleAndkeywords(args，kw，"0000|iii:line"， 
(char**)keywords，&pyobj_img，&pyobj_pt1，&pyobj_pt2， 
&pyobj_color, &thickness, &lineType, &shift) && 
pyopencv_to(pyobj img, img, ArgInfo("img", 1)) && 
pyopencv_to(pyobj_pt1, pt1, ArgInfo("pt1", 8)) && 
pyopencv_to(pyobj_pt2, pt2, ArgInfo("pt2", 6)) && 
pyopencv_to(pyobj_color, color, ArgInfo("color", 8)) ) 


ERRWRAP2( cv::line(img, pt1, pt2, color, thickness, lineType, shift)); 
Py_RETURN_NONE; 


return NULL; 
} 

C++ 函数 cv:line0 所 需 的 4 个 参数 类 型 为 Mat、Point、Point 和 Scalar， 程 序 中 调用 4 次 
pyopencv_to0 将 Python 的 数据 转换 为 这 些 类 型 。pyopencv_to0 有 众多 重 载 函数 , 例如 上 述 类 型 转 
换 实际 上 会 调用 cv2.cpp 中 的 如 下 三 个 函数 : 

static int pyopencv_to(const PyObject* o, Mat& m, const ArgInfo info, bool allowND=true); 


static inline bool pyopencv_to(PyObject* obj, Point& p, const char* name = "<unknown>"); 
static bool pyopencv_to(PyObject *0, Scalar& s, const char *name = "<unknown>"); 


下 面 是 其 中 Point 类 型 对 应 的 转换 函数 : 


涨 洋基 粮 半 凑 并 疹 识 罗 -NOU9dO 


static inline bool pyopencv_to(PyObject* obj, Point& p, const char* name = "<unknown>") 
{ 
(void)name; 
if(!obj || obj == Py_None) 
return true; 
if(!!PyComplex_CheckExact(obj)) 


{ 
Py_complex c = PyComplex_AsCComplex(obj); 
p.x = saturate cast<int>(c.real); 
p.y = saturate cast<int>(c.imag); 
return true; 
} 


return PyArg ParseTuple(obj, "ii", &p.x, 8&p.y) >6; 
} 


分 析 该 程序 可 知 它 能 将 Python 的 复数 和 元 组 转换 为 Point 对象 ,例如 100+200j 或 (100.200)。 
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多。 请 读者 使 用 同样 的 方法 找到 与 Scalar 类 型 对 应 的 pyopencv to0 函 数 ， 并 分 析 它 能 将 何 
。 种 类 型 的 对 象 转换 成 Scalars 对 象 。 


在 调用 C++ 的 函数 之 后 ， 还 需要 将 其 返回 值 转换 为 Python 的 对 象 。 这 种 转换 
pyopencv_from0 函 数 实现 。 例 如 minAreaRect0 函 数 找到 一 个 包含 所 有 点 的 最 小 矩形 。 帮 助 文档 
中 的 调用 说 明 如 


C++: RotatedRect minAreaRect(InputArray points) 


Python: cv2.minAreaRect(points) 一 retval 


只 看 该 函数 说 明 无 法 知道 cv2.minAreaRect0 会 返回 何 种 对 象 来 表示 C++ 中 的 RotatedRect 对 
象 。 在 cv2.cpp 中 搜索 对 应 的 类 型 转换 函数 为 : 
static inline PyObject* pyopencv_from(const RotatedRect& src) 


‘ 
return Py_BuildValue("((ff)(ff)f)", src.center.x, src.center.y, 
src.size.width, src.size.height, src.angle); 


} 

分 析 该 函数 可 知 minAreaRect0 返 回 一 个 有 三 个 元 素 的 元 组 ， 而 其 中 第 0、 第 1 个 元 素 是 有 
两 个 元 素 的 元 组 ， 因 此 可 以 写 出 如 下 测试 程序 ， 其 中 x 和 y 为 矩形 的 中 心 坐标 ，w 和 h 为 矩形 
的 宽 和 高 ，angle 为 旋转 角度 : 


points = np.random.rand(26，2).astype(np.float32) 
(x，y)，(w，h)，angle = cv2.minAreaRect(points) 


9.6.2 ”Mat 对 象 


在 Crt AP[ 中 用 Mat 对 象 表 示 图 像 ， 在 调用 cv2 模块 中 的 函数 时 , 会 自动 将 整数 、 浮 点 数 、 
元 组 以 及 数组 转换 为 Mat 对 象 。 为 了 说 明 cv2 对 Mat 的 自动 转换 ， 需 要 了 解 Mat 对 象 的 内 部 
构造 。 


Mat 对 象 可 以 看 作 一 个 二 维 像素 阵列 ， 我 们 可 以 使 用 cv 模块 的 CreateMat0 函 数 创 建 Mat 
对 象 。 以 下 程序 创建 的 cvmat 是 一 幅 高 为 200、 宽 为 100、3 个 通道 ,像素 类 型 编号 为 18 的 图 像 。 
step 属性 为 图 像 中 相 邻 两 行 像素 的 字 节 偏 移 量 。 由 于 600 二 100*3*2， 因 此 cvmat 中 的 图 像 数 据 
是 连续 存储 的 。 与 NamPy 数组 的 strides 不 同 ，step 属性 只 能 表示 第 0 轴 方 向 上 两 个 相 邻 元 素 之 
间 的 偏 移 量 ， 因 此 Mat 对 象 无 法 与 某 些 非 连续 的 数组 共享 内 存 。 


cvmat = cv.CreateMat(2060, 160, cv2.CV_16UC3) 


cvmat.height cvmat.width cvmat.channels cvmat.type cvmat.step 


在 cv2 模块 中 ， 可 以 通过 其 中 的 全 局 变量 获得 表示 数值 类 型 和 像素 类 型 的 常数 值 。 数 值 类 
型 名 由 三 部 分 组 成 : 

。 固定 部 分 CV_ 

e 数值 的 比特 数 : 8、16、32、64 

e 一 个 描述 类 型 的 字母 : U 表示 无 符号 整数 、S 表示 符号 整数 、F 表 示 浮 点 数 

像素 类 型 则 在 数值 类 型 的 基础 上 ， 添 加 CL、C2、C3、C4 等 ， 分 别 表示 1 到 4 个 通道 的 像 
素 类 型 。 因 此 CV_16U 表示 16 位 的 无 符号 整数 ， 而 CV_16UC3 表示 三 个 通道 的 16 位 无 符号 
整数 : 


CVv2.CV 16U cv2.CV_16UC3 


将 数组 转换 成 Mat 对 象 时 ， 数 组 的 第 0 轴 为 图 像 的 纵 轴 方向 ， 第 1 轴 为 图 像 的 横 轴 方向 。 
若 数组 有 第 2 轴 ， 则 第 2 轴 为 图 像 的 通道 数 ， 若 无 第 2 轴 ， 则 图 像 的 通道 数 为 1。 数 组 的 dtype 
类 型 与 Mat 的 数值 类 型 的 对 应 关系 如 表 9-3 所 示 。 


表 9-3 dtype 类 型 与 Mat 数值 类 型 的 对 应 关系 


dtype 类 型 Mat 数 值 类 型 说 明 
uint8 CV_8U 单字 节 无 符号 整数 
intg CV_8S 
uintl6 CV_16U 
int16 CV_16S 
int32 CV_32S 
float32 CV_32F 
float64 CV_64F 双 精 度 浮 点 数 


调用 cv2 模块 中 的 函数 时 , NumPy 数组 会 被 转换 为 Mat 对 象 , 它 尽 可 能 与 原 数组 共享 内 存 ， 
但 如 果 数 组 的 dtype 类 型 不 在 表 9-3 中 , 或 者 由 于 数组 的 数据 存储 区 的 非 连 续 性 , 在 把 数组 转换 
为 Mat 对 象 时 会 复制 数据 存储 区 。 为 了 保险 起 见 ， 建 议 读者 传递 给 cv2 模块 的 数组 都 是 C 语言 
连续 的 。 

除了 数组 之 外 ，cv2 还 能 自动 将 整数 和 浮 点 数 转换 成 高 为 4、 宽 为 1、 单 通道 的 双 精 度 浮 点 
数 Mat 对 象 ， 而 元 组 则 会 被 转换 为 高 为 元 组 长 度 、 宽 为 1、 单 通道 的 双 精 度 浮 点 数 Mat 对 象 。 
例如 normalize0 函 数 对 Mat 对 象 进行 正规 化 运算 ， 它 先 将 参数 转换 为 Mat 对 象 ， 把 正规 化 之 后 
的 Mat 对 象 转换 为 数组 返回 。 根 据 上 述 规则 可 以 得 知 下 面 的 程序 返回 一 个 形状 为 (4. 1D) 的 双 精 度 
浮 点 数组 : 


cv2.normalize(1) 
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array([[ 1.]， 
[ 8.]， 
[ 8.]， 
[ 8.]]) 


9.3.3 在 cv 和 cv2 之 间 转 换 图 像 对 象 


在 cv 模块 中 使 用 cvmat 和 iplimage 对 象 表示 图 像 。 如 果 需 要 混用 cv2 和 cv 两 套 API 中 的 函 


数 ， 就 需要 在 它们 与 NumPy 数组 之 间 进 行 转换 。 表 94 列 出 了 这 些 类 型 之 间 的 转换 方法 : 


表 9-4 类 型 转换 方法 
类 型 转换 


np.asarray(cvmat) 


下 面 通过 cvLoadImage0 和 cv.LoadImageM0O 分 别 将 图 像 读 入 为 iplimage 和 cvmat 对 象 : 


img = cv2.imread("lena.jpg") 

iplimage = cv.LoadImage("lena.jpg") 

cvmat = cv.LoadImageM("lena.jpg") 

print iplimage 

print cvmat 

<iplimage(nChannels=3 width=512 height=512 widthStep=1536 )> 
<cvmat (type=42424618 8UC3 rows=512 cols=512 step=1536 )> 


如 果 需 要 在 NumPy 数组 和 iplimage 之 间 转 换 ， 可 以 通过 cvmat 作为 桥梁 ， 例 如 : 


import numpy as np 
np.all(img == np.asarray(iplimage[:])) 


True 


的 内 存 空间 中 ， 因 此 使 用 切片 获得 的 数组 需要 复制 


由 于 iplimage 类 型 需要 数据 保存 在 


之 后 才能 转换 为 iplimage 对 象 : 


iplimage2 = cv.GetImage(cv.fromarray(img[::2,::2,:].copy())) 


Cython- 编 译 Python 程序 


Python 的 动态 特性 虽然 方便 了 程序 的 开发 ， 但 也 会 极 大 地 降低 运行 速度 ， 特 别 是 对 于 计算 
密集 型 的 程序 。 用 Python 开发 这 类 程序 时 , 通常 会 调用 编译 型 语言 编写 的 扩展 库 ,例如 NumPy、 


SciPy 等 ， 尽 量 避 免 直接 在 Python 中 进行 大 量 的 循环 和 数值 计算 。 如 果 这 些 现成 的 库 无 法 完成 
计算 要 求 ， 就 需要 用 更 高 效 的 语言 编写 核心 计算 部 分 ， 并 为 之 提供 Python 的 调用 接口 ， 从 而 同 
时 实现 高 效 开 发 和 高 效 运算 。 

然而 如 果 采 用 C 语言 编写 扩展 库 ， 就 会 几乎 失去 Python 带 来 的 所 有 便利 : 函数 的 参数 需 
要 手 - eth a el 要 手 -J 维护 、 大 量 的 Python API 需要 记忆 。 所 有 这 些 困难 使 得 


Cython 是 为 了 减轻 用 C 语言 编写 人 扩展 模块 的 负担 而 开发 出 来 的 一 种 编程 语言 。 
的 语法 基本 与 Python 相同 ， 但 增加 了 直接 定义 和 调用 C 语言 函数 、 定 义 变量 类 型 等 功能 。 通过 
Cython 的 编译 器 可 以 将 Cython 的 源 程序 编译 成 C 语言 的 源 程序 ， 再 通过 C 语言 编译 器 编译 成 
扩展 模块 。Cython 程序 既 能 实现 C 语 言 的 运算 速度 ， 也 能 使 用 Python 的 所 有 动态 特性 ， 极 大 地 
方便 了 扩展 库 的 编写 


10.1 配置 编译 器 
仿 与 本 节 内 容 对 应 的 Notebook 为 : 10-cython/cython-100-compileripynb 


为 了 使 用 Cython， 首 先 要 选择 好 C 语言 编译 器 。 在 WinPython 和 Anaconda 中 已 经 自 带 了 
mingw32 编译 器 ， 为 了 让 Python 使 用 它 作 为 缺 省 的 编译 器 ， 需 要 编辑 Python 安装 路 径 下 
Lib/distutils/distutils.cfg 文件 ， 添 加 如 下 内 容 : 


[build] 
compiler = mingw32 
读者 可 以 使 用 本 书 提供 的 show_compiler0 显 示 默 认 的 C 语 言 编译 器 。 使 用 set_compiler0 可 
以 快速 设置 distutils.cfg 中 的 compiler 选项 : 
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from scpy2.utils import show compiler, set_compiler 

set_compiler("mingw32") 

show_compiler() 

mingw32 defined by C:\Winpython-32bit-2.7.9.2\python-2.7.9\lib\distutils\distutils.cfg 


如 果 未 通过 distutilscfg 文件 指定 编译 器 , distutils 会 尝试 使 用 编译 Python 2.7 的 编译 器 Visual 
C++ 2008， 如 果 操 作 系 统 中 未 安装 该 编译 器 ， 会 出 现 如 下 错误 


DistutilsPlatformError: Unable to find vcvarsall.bat 


由 于 现在 Visual C++ 2008 已 经 很 难 入 手 ， 因 此 微软 为 Python 2.7 提 供 了 专门 的 Visual C++ 
编译 器 供 下 载 ; 


http://www.microsoft.com/en-us/download/confirmation.aspx?id=44266 
微软 提供 的 编译 Python 2.7 的 编译 器 。 


该 编译 器 缺 省 安装 在 用 户 路 径 之 下 ， 为 了 让 Python 的 distutils 模块 能 正确 找到 它 ， 需 要 运 
行 下 面 的 命令 来 更 新 setuptools 模块 : 


pip install --upgrade setuptools 
先 载 入 setuptools 模块 就 可 以 让 distutils 正确 找到 Visual C++ 编译 器 ; 


import setuptools # 先 载 入 setuptools 

import distutils 

from distutils.msvc9compiler import find_vcvarsall 

find_vcvarsal1(9.9) 

U'C:\\Users\\RY\\AppData\\Local\\Programs\\Common\\Microsoft\\Visual C++ for 
Python\\9.6\\vcvarsal1.bat 


然后 就 可 以 使 用 %%cython 命令 在 Notebook 中 编译 Cython 程序 ， 测 试 编译 器 是 否 正 确 设 
置 了 


%9%ocython 魔法 命令 缺 省 没有 载 入 到 IPyhton 的 运算 核 中 ， 需 要 先 通 过 %load_ext cython 
名 命令 载 入 该 命令 。 
X%%cython 


def add(a, b): 
returna+b 


此 外 ， 使 用 新 版 本 的 Visual C++ 也 可 以 编译 扩展 模块 ， 在 编译 一 些 较 新 的 函数 库 (例如 笔者 
Cython 包装 Kinect2 的 APD 时 可 能 需要 最 新 版 本 的 Visual C++ 编译 器 。 但 distutils 只 搜索 编译 
Python 时 所 使 用 的 编译 器 ， 因 此 无 法 使 用 最 新 版 本 的 编译 器 。 

distutils 从 sys.version 获取 编译 Python 的 编译 器 版 本 ， 可 通过 本 书 提供 的 set_msvc_version0 
修改 该 信息 ， 从 而 实现 选择 新 版 本 的 编译 器 : 


from scpy2.utils import set_msvc_version 

set_compiler("msvc") 

set_msvc_version(12) 

show_compiler() 

msvc 12.0 defined by C:\WinPython-32bit-2.7.9.2\python-2.7.9\lib\distutils\distutils.cfg 


下 面 将 编译 器 设置 还 原 成 mingw32， 接 下 来 的 章节 中 均 使 用 此 编译 器 : 


set_msvc_version(9) 
set_compiler("mingw32") 


10.2 Cython 入门 


A 与 本 节 内 容 对 应 的 Notebook 为 : 10-cython/cython-200-introipynb。 


当 需 要 在 Python 中 对 数组 的 元 素 进行 大 量 循环 计算 时 , Python 的 运行 效率 会 比 C 语 言 的 效 
率 低 上 百倍 。 让 我 们 首先 通过 一 个 数组 运算 函数 的 实例 , 演示 Cython 如 何 实现 数组 的 高 速 运算 。 


10.2.1 计算 矢量 集 的 距离 矩 阵 
我 们 要 实现 计算 一 组 矢量 中 每 两 对 矢量 的 距离 的 函数 。 下 面 的 数组 X 的 形状 为 (200, 3), 可 
以 把 它 看 作 200 个 三 维 空间 中 的 点 : 


import numpy as np 
np.random. seed(42) 
X = np.random.rand(266，3) 


为 了 计算 每 对 点 之 间 的 距离 ， 可 以 用 NumPy 的 广播 功能 ， 或 者 使 用 SciPy 中 的 
scipy.spatial.distance.pdist0 来 实现 。 不 过 这 里 为 了 比较 Python 和 Cython 的 性 能 ， 我 们 用 三 层 循环 
逐个 元 素 进行 计算 : 
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def pairwise dist python(X): 
m, n = X.shape 
D = np.empty((m, m), dtype=np.float) 
for i in xrange(m): 
for j in xrange(i, m): 
d=6.6 
for k in xrange(n): 
tmp = X[i, k] - X[j，k] 
d += tmp * tmp 
DEL 3 sD Ed 
return D 


为 了 验证 程序 的 结果 是 否 正确 ， 下 面 用 SciPy 的 pdist0 进 行 同样 的 计算 ， 并 比较 二 者 的 运 
算 速度 : 可 以 看 出 二 者 的 运算 速度 相差 近 200 倍 。 


from scipy.spatial.distance import pdist, squareform 
%timeit squareform(pdist(X)) 

%timeit pairwise dist python(X) 
np.allclose(squareform(pdist(X)), pairwise dist_ python(X)) 
1666 loops, best of 3: 443 hs per loop 

16 loops, best of 3: 92.7 ms per loop 

True 


Cython 程序 需要 编译 ， 通 常 需要 编写 一 个 setuppy 程序 ， 稍 后 会 详细 介绍 这 方面 的 内 容 。 
现在 我 们 先 用 IPython Notebook 中 的 %9%cython 魔法 命令 快速 编译 运行 Cython 程序 。 

%9%cython 魔法 命令 是 一 个 单元 命令 , 整个 单元 中 的 程序 都 会 调用 Cython 编译 成 扩展 模块 ， 
并 自动 从 编译 之 后 的 模块 中 载 入 所 有 对 象 。 由 于 Cython 程序 是 一 个 单独 的 模块 ,因此 需要 在 此 
模块 中 重新 载 入 numpy 库 。 下 面 的 程序 完全 和 pairwise_dist_python0 相 同 ， 其 运算 速度 也 和 


4 


pairwise_dist_python0 相 当 ， 只 有 很 小 的 进步 : 


X%%cython 
import numpy as np 


def pairwise dist_cython(X): 
m, Nn = X.shape 
D = np.empty((m, m), dtype=np.float) 
for i in xrange(m): 
for j in xrange(i, m): 
d=6.9 
for k in xrange(n): 
tmp = X[i，k] - Xx[j, k] 
d += tmp * tmp 
pli, j]= DIj; 1] md ** G5 
return D 
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F 面 测试 其 运算 速度 : 
%timeit pairwise dist_cython(X) 
np.allclose(pairwise dist cython(X), pairwise dist_ python(X)) 
16 loops, best of 3: 72.9 ms per loop 


True 


下 面 的 程序 用 上 Cython 的 所 有 优化 手段 ， 其 中 cdef 为 声明 变量 类 型 的 关键 字 ，@cython 为 


指导 Cython 编译 的 命令 。 可 以 看 出 Cython 编译 出 比 pdist0 更 快 的 代码 。 


X%%cython 

import numpy as np 

import cython 

from libc.math cimport sqrt 


@cython.boundscheck(False) 
@cython.wraparound(False) 
def pairwise dist_cython2(double[:, ::1] X): 
cdef int m, n, i, j,k 
cdef double tmp, d 
m, n = X.shape[8], X.shape[1] 
cdef double[:, ::1] D = np.empty((m, m), dtype=np.float64) 
for i in range(m): 
for j in range(i, m): 
d=6.9 
for k in range(n): 
tmp = X[i，k] - Xx[j, k] 
d += tmp * tmp 
D[i, j] = D[j, i] = sqrt(d) 
return np.asarray(D) 


%timeit pairwise dist_cython2(X) 
np.allclose(pairwise dist_cython2(X), pairwise dist_python(X)) 
16666 loops, best of 3: 196 hs per loop 


True 


10.2.2 ”将 Cython 程序 编译 成 扩展 模块 


2 


在 Notebook 中 测试 了 Cython 程序 的 速度 与 正确 性 之 后 ， 我 们 希望 将 其 编译 成 扩展 模块 ， 
供 其 他 的 Python 程序 调用 。 实 际 上 ，%9cython 魔法 命令 自动 将 Cython 代码 编译 成 扩展 模块 ， 


fF 从 该 模块 载 入 所 有 的 全 局 对 象 。 下 面 通过 sys.modules 找到 pairwise_dist_cython20 函 数 所 在 模 
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块 的 文件 路 径 。 如 果 读 者 希望 立即 使 用 该 扩展 模块 ， 可 将 其 复制 到 自己 的 Python 程序 目录 下 。 
然后 就 可 以 像 使 用 一 般 模块 一 样 使 用 它 了 : 


import _cython_magic_f9e6211d48d6b874fa7ae6ce345d297b as fast_pdist 

fast_pdist.pairwise_dist_cython2(X) 

import sys 

Sys.modules[pairwise dist cython2. module_] 

<module '_cython magic f9e6211d48d8b874fa7ae6ce345d297b' from 
'C:\Users\RY\Dropbox\scipybook2\settings\.ipython\cython\_cython magic f9e6211d48d8b874fa7a 
e6ce345d297b.pyd'> 


可 以 通过 %%cython 命令 的 -n 参数 指定 编译 之 后 的 扩展 模块 名 ， 例 如 %%cython -n 
fast_pdist, 


如 果 希 望 使 用 distutils 库 自 动 编译 扩展 模块 ， 可 以 编写 如 下 setup_fast_pdist.py 安装 文件 。 在 
其 中 定义 了 一 个 表示 扩展 模块 的 Extension 对 象 ， 名 为 "fast_pdist"， 包 含 一 个 Cython 源 程序 
"fast_pdist.pyx"， 该 文件 的 内 容 与 前 面 定义 pairwise_dist_cython20 的 程序 相同 。 由 于 它 使 用 了 
Numpy 的 功能 ， 因 此 需要 通过 numpy.get_include0 指 定 NumPy 的 头 文件 的 路 径 。 


%%file setup_fast_pdist.py 

from distutils.core import setup 

from distutils.extension import Extension 
from Cython.Distutils import build ext 
import numpy as np 


ext_modules = [ 
Extension("fast_pdist", ["fast_pdist.pyx"], 
include dirs = [np.get_include()])， 


setup( 
name = "a faster version of pdist', 
cmdclass = {'build ext': build ext}, 
ext_modules = ext_modules 


) 


在 命令 行 中 运行 如 下 命令 ， 即 可 对 Cython 文件 进行 编译 ， 生 成 扩展 模块 fast_pdist.pyd: 


python setup_fast_pdist.py build ext --inplace 


接 下 来 即 可 载 入 该 扩展 模块 ， 并 调用 其 中 的 函数 : 


import fast_pdist 
np.allclose(fast_pdist.pairwise dist cython2(X), pairwise dist_ python(X)) 


True 


除了 使 用 setup.py 之 外 ， 还 可 以 使 用 cythonize 命令 。 读 者 可 以 在 PATH 环境 变量 的 搜索 路 
径 (例如 Python 的 Scripts 文件 夹 ) 下 创建 一 个 名 为 cythonize.bat 的 批 处 理 文件 ,并 添加 如 下 内 容 : 


@echo off 
python -m Cython.Build.Cythonize %# 
然后 就 可 以 在 命令 行 下 输入 cythonize -ifast_pdist.pyx, 将 指定 的 Cython 文件 编译 成 扩展 模 
块 ， 并 保存 在 相同 的 路 径 之 下 。 
10.2.3 C 语言 中 的 Python 对 象 类 型 
使 用 的 程序 可 通过 Cython 编译 器 编译 成 C 语言 程序 ， 然 后 再 通过 C 语言 
编译 器 编译 为 扩展 模块 供 Python 调用 。 在 Cython 语言 中 可 以 对 Python 的 对 象 类 型 和 C 语言 类 
型 进行 处 理 。 为 了 让 读者 更 深入 地 理解 Cython 语言 , 本 节 先 介绍 在 C 语言 中 是 如 何 表示 Python 
对 象 的 。 
Python 采用 C 语 言 编写 , 它 的 所 有 对 象 都 采用 C 语言 的 结构 体 表示 , 无 论 何 种 对 象 的 结构 
体 ， 其 头 两 个 字段 的 含义 是 固定 的 : 
e ob_refcnt: 该 对 象 的 引用 次 数 ， 当 引用 次 数 为 0 时 ， 该 结构 体 所 占据 的 内 存 将 被 释放 。 
e ”ob_type: 指向 类 型 对 象 的 指针 。 
在 Python 的 C 语 言 程 序 中 定 了 PyObject 结构 体 , 它 仅 拥有 上 述 两 个 字段 。 而 其 他 对 象 类 型 
的 结构 体 则 在 之 后 添加 新 的 字段 ， 例 如 float 类 型 对 应 的 结构 体 如 下 : 


typedef struct { 
Py_ssize t ob_refcnt; 
struct _typeobject *ob_ type; 
double ob_fval; 

} PyFloatObject; 


在 32 位 系统 中 , Py_ssize_t 和 指针 都 使 用 4 个 字 节 表示 , 而 double 类 型 的 长 度 为 8 个 字 节 ， 
所 以 Python 中 的 一 个 float 对象 占据 16 个 字 节 。 下 面 通过 sys.getsizeof0 获 得 浮 点 数 对 象 1.0 的 字 
节 数 : 

import sys 
sys.getsizeof(1.6) 
16 


于 所 有 Python 对 象 的 头 两 个 字段 类 型 是 相同 的 ， 因 此 在 C 语言 中 使 用 PyObject * 类 型 的 
指针 表示 Python 对 象 。 在 Cython 中 ， 所 有 没有 声明 类 型 的 变量 都 表示 Python 对 象 ， 因 此 编译 
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成 C 语 言 之 后 , 这 些 变 量 都 是 PyObject* 类 型 的 指针 。 Python 提供 了 Python/C API 以 方便 用 户 使 


有 C 语言 编写 扩展 模块 。 


下 面 我 们 为 %9cython 魔法 命令 添加 -a 参数， 显示 Cython 程序 及 其 编译 之 后 的 C 语 言 程序 
之 间 的 关系 。 在 Notebook 中 运行 下 面 的 程序 将 输出 一 段 如 图 10-1 所 示 的 可 折 炙 的 代码 。 通 过 
颜色 显示 每 行 Cython 代码 编译 之 后 的 C 语言 代码 的 多 少 。 颜 色 越 深 表 示 该 行 代码 的 运行 速度 
可 能 会 越 慢 。 请 注意 由 于 这 些 C 语言 代码 都 是 Cython 自动 生成 的 ， 因 此 阅读 起 来 可 能 有 些 困 
难 ， 读 者 无 须 完全 理解 这 些 代 码 ， 只 需要 大 致 了 解 工 作 原理 即 可 。 


在 上 面 的 程序 中 ， 变 量 a、b、c 均 为 Python 对 象 ， 


图 10-1 使 用 “-a” 参 数 查看 编译 之 后 的 C 语 言 程序 


因此 c=a+b 被 编译 成 如 图 10-1 所 示 的 


C 语言 代码 。 其 中 _Pyx_GOTREF 和 _Pyx_DECREF 是 为 了 保证 垃圾 回收 机 制 能 正常 运行 ， 而 


对 对 象 的 引用 计数 器 进行 操作 。 


10.2.4 使 用 cdef 关键 字 声 明 变 量 类 型 


._n_s a 为 字符 串 对 象 "a"。_Pyx_GetModuleGlobalName(L_pyx_n_s_ 9 从 全 局 字典 中 获 
取 "a" 表 示 的 Python 对 象 PyNumber_Add0 为 Python/C API 函 数 ， 它 将 两 个 Python 对 象 当 作 数 值 
相 加 ， 并 返回 一 个 新 的 Python 对 象 _pyx_t_3。 最 后 调用 PyDict_SetItem0 将 _pyx_t_3 添加 进 全 
局 字典 _pyx_d 中 ， 对 应 的 键 为 _pyx_n_sc 所 表示 的 字符 串 对 象 "c"。 

因此 一 个 简单 的 加 法 运算 需要 两 次 查询 全 局 字典 ， 
次 API 函数 来 完成 加 法 运算 ， 最 后 再 将 结果 写 入 全 局 字典 。 


获取 变量 a 和 b 所 表示 的 对 象 ， 然 后 调 


为 了 大 幅度 地 提高 程序 的 运行 速度 , 需要 对 Python 程序 中 频繁 用 到 的 变量 使 用 cdef 关键 字 
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声明 变量 类 型 。 用 cdef 关键 字 声明 变量 类 型 起 到 如 下 两 个 作 
。 提高 变量 的 存 取 速 度 : 在 Python 中 ， 全 局 变量 和 对 象 的 属性 与 它们 对 应 的 值 之 间 的 关 

系 保存 在 字典 中 , 每 次 读 写 这 些 变 量 或 属性 都 相当 于 对 字典 进行 存 取 。 而 如 果 使 用 cdef 
关键 字 声明 变量 ， 那 么 该 变量 与 其 值 的 对 应 关系 在 编译 期 已 经 确定 ， 可 以 省 下 字典 查 

询 所 需 的 时 间 。 

e 提高 数值 的 处 理 速度 : 在 Python 中 所 有 的 对 象 都 是 C 语 言 中 的 结构 体 ， 对 其 进行 运算 
时 需要 调用 Python 提供 的 API 函数 。 而 当知 道 值 的 类 型 时 ，Cython 会 尽 可 能 地 使 用 C 

语言 提供 的 运算 功能 ， 从 而 极 大 地 提高 计算 速度 。 

在 下 面 的 例子 中 ， 使 用 cdef 定义 a、b、c 三 个 变量 为 double 类 型 。 所 生成 的 C 语 言 代 码 大 


static double a, b, c; 


PyMODINIT_FUNC init(){ 


a=1.0; 
b = 2.0; 
c=a+b; 


} 


该 段 代 码 创建 了 三 个 类 型 为 double 的 全 局 变量 , 并 在 模块 初始 化 函数 中 为 这 三 个 全 局 变量 
赋值 。 加 法 运算 和 变量 赋值 均 为 C 语言 中 的 操作 ， 与 上 节 中 调用 API 函数 的 代码 相 比 要 简洁 
许多 。 


A 请 注意 这 里 使 用 cdef 定义 的 三 个 全 局 变量 为 C 语 言 的 全 局 变量 ， 并 不 能 在 Python 中 
通过 编译 之 后 的 扩展 模块 获取 它们 的 值 。 


Xipcython -a 

cdef double a = 1.6 
cdef double b = 2.6 
cdef double c=a+b 


当 C 语 言 的 变量 与 Python 对 象 进行 运算 时 ， 会 将 C 语 言 的 变量 转换 成 Python 对 象 之 后 再 
调用 API 函 数 进行 运算 。 在 下 面 的 例子 中 ,s 为 C 语 言 类 型 的 变量 , 而 a 为 Python 的 float 对 象 。 
@s 和 a 直 接 相 加 时 ， 会 大 致 运行 如 下 C 语言 代码 ， 其 中 _v_s 为 double 类 型 变量 ，_t 1 到 
-3 为 Python 对 象 指针 ，_s_a 为 字符 串 对 象 "a": 
_t 1 = PyFloat_FromDouble(_v_s); // 将 s 转换 成 Python 对 象 
七 2 = _Pyx_GetModuleGlobalName(_s_a); // 获 得 全 局 字典 中 "a" 对 应 的 对 象 
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_t 3 = PyNumber_Add(_t 1，_t 2); // 加 法 运算 
_V_s = _pyx_PyFloat_AsDouble(_t_3); // 将 加 法 运算 的 结果 转换 为 double 类 型 


@ 使 用 <double> 将 Python 对 象 强制 转换 为 C 语 言 的 double 类 型 ， 因 此 这 里 的 加 法 运算 采 
C 语 言 的 加 法 操作 符 ， 大 致 相当 于 运行 如 下 C 语 言 代码 ， 其 中 _t_1 为 Python 对 象 指针 ，_t_2 为 
double 类 型 


七 1 = _Pyx GetModuleGlobalName(_s_a); 
七 2 = _pyx PyFloat AsDouble( t 1); 
Vs= vs+_t2; 


X%%cython -a 


cdef double s = 6 
a=3.6 
s=-s+ag 

s = 5s +《<double>a 思 


除了 C 语言 的 各 种 数据 类 型 之 外 ，Cython 还 能 识别 Python 的 许多 内 置 的 数据 类 型 ， 例 如 
列表 、 字 典 、 元 组 等 。 在 下 面 的 例子 中 ， 使 用 list 声明 clist 变量 是 一 个 列表 对 象 ， 并 且 使 用 一 
个 int 类 型 的 cindex 变量 作为 下 标 获取 列表 中 的 值 。 为 了 进行 比较 ， 也 使 用 两 个 动态 变量 pylist 
和 pyindex 进行 同样 的 操作 。 

%%cython -a 

cdef list clist = [1666，2，3] 


cdef int cindex = 6 
clist[cindex] © 


pylist = [1666，2，3] 

pyindex = 6 

pylist[pyindex] @ 

@ 由 于 声明 了 clist 和 cindex 的 类 型 ， 因 此 clistfcindex] 被 编译 成 如 下 代码 ， 直 接 调 用 辅助 函 
数 _Pyx_GetItemInt_List0 获 取 列 表 对 象 中 某 个 下 标 对 应 的 对 象 : 

_Pyx_GetItemInt List(clist, _ pyx_v_4demo_ cindex, int, 1, _ Pyx_PyInt_ From int, 1, 1, 1) 

@ 由 于 pylist 和 pyindex 变量 没有 类 型 声明 ， 因 此 把 它们 当 作 Python 的 对 象 进行 处 理 。 将 
pylist[pyindex] 编 译 为 如 下 代码 : 


_Ppyxt 1 = _Pyx GetModuleGlobalName(_ pyx_n_s_pylist); 
Pyx_GOTREF(_ pyx t 1); 
_Ppyxt 2 = _Pyx GetModuleGlobalName(_ pyx_n_s_pyindex); 
Pyx_GOTREF(_ pyx t 2); 


_pyx t 3 = PyObject GetItem(_ pyx t 1, _ pyx t 2);; 
_Pyx_GOTREF(_ pyx t 3); 

Pyx DECREF(_ pyx t 1); _pyxt1=6; 

Pyx_ DECREF(_ pyx t 2); _pyxt 2= 0@; 

Pyx DECREF(_ pyx t 3); _pyxt 3= 6; 


首先 调用 _Pyx_GetModuleGlobalName0 从 全 局 变量 字典 中 获取 pylist 和 pyindex 对 应 的 对 象 ， 


然后 调用 Python 的 API 函数 PyObject_GetItem0 获 得 下 标 对 应 的 对 象 。 

除了 使 用 0 的 下 标 存 取 操作 之 外 ，Cython 还 能 识别 许多 内 部 类 型 的 方法 和 属性 。 表 10-1 列 
出 了 目前 Cython 所 能 识别 的 Python 数据 类 型 以 及 相关 的 运算 操作 ， 当 遇 到 表 中 己 知 的 属性 或 
方法 时 ，Cython 将 生成 高 效 代码 。 


表 10-1 Cython 所 能 识别 的 Python 数据 类 型 


数据 类 型 可 识别 的 运算 
bytes、str、unicode join0、in 
tuple in 
list ip、insertD、reverse0、append0、extend0) 
dict in、getO0、has_key0、keys0、values0、iters0、clear0、copy0 
Set in、clear0、add0、PpopO 
slice Start 、stop、step 
complex cval、real、imag 


读者 可 以 在 前 面 的 程序 中 添加 dlist.append(pyindex) 来 查看 append0 编 译 之 后 的 程序 。 如 果 遇 
到 未 知 的 属性 或 方法 ， 将 调用 Python 对 象 提供 的 通用 API 接 口 ， 例 如 clist.count(0)。 


10.2.5 使 用 def 定义 函数 


通常 为 了 提高 程序 的 运算 速度 ,我们 在 Cython 中 用 def 关键 字 定义 函数 ， 然 后 在 Python 中 
调用 它们 。 由 于 需要 在 Python 中 调用 ，def 所 定义 函数 的 参数 和 返回 值 均 为 Python 对 象 。 然 而 
在 Cython 中 可 以 为 函数 的 参数 添加 类 型 定义 , Cython 会 对 这 些 参数 进行 类 型 检查 并 自动 转换 成 
对 应 的 C 语 言 类 型 。 
下 面 的 py_square_add0 函 数 的 两 个 参数 均 为 double 类 型 ， 当 在 Python 中 调用 时 ， 传 递 的 是 
两 个 Python 的 float 对 象 。 在 py_square_add0 内 部 会 将 这 两 个 float 对 象 转换 成 C 语 言 的 double 
类 型 的 变量 ， 计 算出 double 类 型 的 结果 之 后 ， 再 将 其 转换 成 Python 的 float 对 象 并 返回 。 

对 应 的 C 语 言 代 码 大 致 如 下 ， 其 中 x、y 和 了 均 为 Python 的 对 象 指针 类 型 ， 而 .vx 和 _v_y 
为 C 语 言 的 double 类 型 变量 。 通 过 API 函数 PyFloat_AsDouble0 和 PyFloat_FromDoubleO 在 float 
对 象 和 double 类 型 变量 之 间 进 行 转换 。 


double _v_x = PyFloat AsDouble(x); 
double vy = PyFloat AsDouble(y); 
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PyObject * _r; 
_r = PyFloat FromDouble(((Vx* vx)+(vy* _vy))); 


X%%cython -a 
def py_square add(double x, double y): 


return x*x + y*y 


当 使 用 Python 的 类 型 (例如 lis 声明 参数 时 ，Cython 会 进行 类 型 检查 ,并 将 可 识别 的 运算 转 
换 成 更 高 效 的 代码 。 在 下 面 的 例子 中 ， 声 明 alist 参数 为 list 类 型 ， 因 此 len(alist) 将 被 编译 为 
PyListGET_SIZEL_pyx_v_alisb， 而 alist 辐 则 被 编译 为 调用 _Pyx_GetItemInt_List0 函 数 : 


%%cython -a 


def sum list(list alist): 
cdef double s = 6 
cdef int i = 6 
for i in range(len(alist)): 
s += <double>alist[i] 
return s 


10.2.6 ”使 用 cdef 定义 C 语言 函数 


def 函数 采用 Python 的 调用 接口 ， 即 使 是 在 Cython 程序 内 部 调用 这 些 函数 ， 也 需要 对 参数 
和 返回 值 进行 类 型 转换 。 在 大 量 循环 中 调用 这 样 的 函数 会 有 较 大 的 损耗 。 可 以 使 用 cdef 关键 字 
定义 只 能 在 Cython 程序 内 部 调用 的 函数 ， 调 用 的 开销 和 C 语言 的 函数 相同 。 

下 面 的 c_square add0 使 用 cdef 定义 ， 参数 和 返回 值 均 为 double 类 型 。 其 中 a = 
c_square_add(1.0, 2.0) 被 编译 为 如 下 代码 : 


_Ppyx va= _pyx fc square add(1.0, 2.0); 


请 。 如 果 不 声 明 cdef 函数 的 返回 值 类 型 ， 则 其 类 型 为 Python 对 象 。 


Xipcython -a 
cdef double c_square_add(double x, double y) : 


return x*x + y*y 


cdef double a = c_square_add(1.6，2.6) 


如 果 希 望 同一 个 函数 能 在 Cython 中 快速 调用 ， 并 且 能 在 Python 中 调用 ， 可 以 使 用 cpdef 关 
键 字 。 它 将 同时 生成 一 个 C 语言 函数 和 一 个 供 Python 调用 的 包装 函数 。 在 Cython 中 调用 cpdef 


函数 时 会 比 cdef 函数 稍微 耗 时 一 些 ， 但 要 比 调用 def 函数 快 得 多 。 
%ipcython -a 


cpdef double cp_square_add(double x, double y) : 
return x*x + y*y 


cp_square_add(1.0, 2.06) 


10.3 ”高效 处 理 数组 


A 与 本 节 内 容 对 应 的 Notebook 为 : 10-cython/cython-300-memoryview.ipynb。 


科学 计算 程序 中 存在 大 量 的 数组 操作 ， 前 面 已 经 简要 地 介绍 过 如 何 使 用 Cython 的 内 存 视 
图 (MemoryView) 快 速 访问 数组 的 元 素 ， 本 节 详 细 介绍 用 法 。 


10.3.1 ”Cython 的 内 存 视图 
Cython 中 的 内 存 视 图 采用 如 下 语法 进行 声明 : 
cdef 元 素 类 型 [ 维 数 声明 ] 变量 名 


其 中 维 数 声明 的 形式 如 下 ， 使 用 :代表 轴 ，::1 表示 对 应 轴 上 的 元 素 被 连续 存储 : 

e []: 一 维 数组 

。 [::1]: 一 维 连续 存储 的 数组 

e [:,:]: 二 维 数组 

e [,::1]: 二 维 数组 ， 第 1 轴 的 元 素 被 连续 存储 

内 存 视图 和 NumPy 数组 的 结构 类 似 ， 保 存 有 shape、base、stride 等 信息 ， 它 本 身 并 不 拥有 
数据 存储 区 ， 而 是 从 其 他 的 Python 对 象 或 C 语 言 数组 获取 数据 存储 区 。 

在 Cython 中 内 存 视图 有 两 种 形式 ， 根 据 使 用 方式 的 不 同 ，Cython 会 在 这 两 种 形式 之 间 自 
动 切换 。 在 C 语言 级 别 它 是 一 个 结构 体 ， 当 需要 将 其 作为 Python 对 象 使 用 时 ，Cython 会 自动 将 
其 转换 成 一 个 MemoryView 对 象 。 下 面 我 们 通过 一 些 例子 演示 内 存 视 图 的 用 法 。 
在 下 面 的 程序 中 ，@buf 是 C 语言 中 的 一 个 全 局 二 维 数组 ，@view 是 一 个 内 存 视 图 ， 并 将 
其 数据 存储 区 初始 化 为 全 局 二 维 数组 buf。 

@numpy.asarray0 是 Python 的 一 个 函数 ， 它 可 以 把 MemoryView 对 象 转换 成 NumPy 数组 ， 
然后 就 可 以 调用 数组 的 方法 和 函数 了 。@ 此 外 ，MemoryView 对 象 也 可 以 直接 传递 给 NumPy 的 
函数 ， 因 为 在 这 些 函 数 内 部 都 会 调用 类 似 asarray0 的 函数 来 将 参数 转换 为 数组 。 
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过 get_view0 可 获取 转换 之 后 的 MemoryView 对 象 ， 方 便 我 们 查看 其 中 的 内 容 。 


当 将 内 存 视 图 返回 到 Python 环境 时 ，Cython 也 会 将 其 转换 成 MemoryView 对 象 。 因 此 通 


Se 


@ 在 Cython 中 获取 内 存 视 图 的 shape 属 性 相当 于 获取 内 存 视图 结构 体 中 shape 字 段 的 数据 ， 


而 对 内 存 视图 的 下 标 操 作 ， 都 会 被 编译 成 对 数据 存储 区 相应 地 址 的 直接 访问 ， 因 此 都 是 十 分 高 
效 的 。 


%%cython 
import numpy as np 


cdef double buf[3][4] 0 
cdef double[:, ::1] view = buf ©@ 


def fill value(double value): 
np.asarray(view) .fill(value) © 


def sum view(): 
return np.sum(view) 9 


def get_view(): 
return view © 


def square_view(): © 
cdef int i, j 
for i in range(view.shape[6]): 
for j in range(view.shape[1]): 
view[i, j] *= view[i, j] 


下 面 通过 get_view0 获 取 MemoryView 对 象 ， 并 查看 其 各 种 属性 ， 可 以 看 到 它们 和 NumPy 


数组 是 完全 一 样 的 : 


View = get_view() 


View.shape view.strides view.itemsize view.nbytes 


(3, 4) (32, 8) 8 96 


下 面 使 用 名 view0、square_view0、sum_view0 等 函数 对 C 语言 中 的 全 局 数组 进行 操作 ， 


MemoryView 对 象 也 支持 下 标 运算 : 


fill_value(3.0) 
print sum view() 
square_view() 
print sum view() 
view[1, 2] = 16 
print sum view() 


36.6 


168.6 


169. 


9 


Xx 


下 面 将 MemoryView 对 象 转换 成 NumPy 数组 ， 可 以 看 出 二 者 是 共享 数据 存储 区 的 : 


arr 
arr[ 


prin 


= np.asarray(view) 
1，6] = 11 
It sum view() 


print arr 


111. 
[[ 


0 
0 00 os 


[A108] 


[ 


oO OO OT 


通过 内 存 视图 的 base 属性 可 以 获得 保存 实际 数据 的 对 象 , 由 于 我 们 的 数据 保存 在 C 语言 的 
全 局 数组 中 ， 因 此 Cython 创建 了 一 个 array 对 象 来 表示 该 全 局 数组 ， 而 通过 其 唯一 的 memview 
属性 可 获取 一 个 新 的 MemoryView 对 象 。 


print view.base._ class 


print view.base.memview 
<type '_cython_magic 1118ba@f43c15alb4a16815476c9c6fa.array'> 
<MemoryView of 'array' object> 


下 面 看 看 使 用 内 存 视图 操作 NumPy 数组 : 

@ 使 用 double[:] 声 明 x 为 一 维 内 存 视图 ， 由 于 没有 指定 其 元 素 为 连续 存储 ， 因此 x 中 被 编译 
为 xdata+i*x.strides[0], 其 中 x.data 为 x 的 数据 存储 区 的 首 地 址 , 类 型 为 单字 节 指 针 , x.strides[0] 
为 第 0 轴 上 元 素 之 间 的 字 节 间隔 数 。 

@ 由 于 声明 了 res 的 元 素 为 连续 存储 ， 因 此 res 四 被 编译 为 (double *) res.data) + i。 因 为 省 略 


了 下 标 变量 i 与 元 素 间 隔 字 节 数 的 乘法 运算 ， 所 以 运算 速度 更 快 。 


段 ， 因 上 出 


通过 resbase 返 回 NumPy 数组 , 注意 base 属性 不 是 表示 内 存 视 图 的 C 语 言 结构 体 中 的 字 


上 Cython 会 先 将 其 转换 成 MemoryView 对 象 , 然后 通过 Python 的 getattr0 函 数 获取 其 base 


如 


果 在 函数 中 对 数组 的 元 素 进行 逐个 循环 ， 可 以 将 boundscheck 和 wraparound 两 个 编译 选 


项 关闭 。 这 样 所 生成 的 C 语 言 代码 不 会 对 数组 下 标 进行 越界 检查 ， 也 不 支持 负数 下 标 ， 从 而 提 
高 数组 元 素 的 访问 速度 。 


X%%cython -a 
import numpy as np 
import cython 


池 前 UoUMd 闹 蕉 -uouMO 


‘589 


池 前 UoUMd 项 车 -UoAO 


，Python 科学 计算 (第 2 版 ) 


@cython.boundscheck(False) 
@cython.wraparound(False) 
def square(double[:] x): © 
cdef int i 
cdef double[::1] res = np.empty_like(x) 
for i in range(x.shape[6]): 
res[i] = x[i] * x[i] @ 


return res.base © 


此 外 ， 内 存 视图 支持 与 NumPy 数组 相同 的 切片 下 标 存 取 功 能 ， 当 使 用 切片 存 取 内 存 视图 
时 ， 将 创建 一 个 与 原 内 存 视图 共享 内 存 的 新 结构 体 ， 因 此 会 有 一 定 的 运算 损耗 ， 但 是 比 数组 的 
切片 操作 要 快 许多 。 
在 下 面 的 例子 中 用 cpdef 定 义 了 一 个 可 在 Cython 中 快速 调用 , 且 能 在 Python 中 调用 的 norm0 
函数 ， 它 对 一 维 向 量 进行 原 地 归 一 化 。 而 norm_axis0 则 可 以 对 二 维 数组 的 指定 轴 进 行 归 一 化 ， 
如 果 inplace 参数 为 True， 则 进行 原 地 归 一 化 ， 否 则 返回 一 个 新 的 归 一 化 之 后 的 数组 。 

@ 内 存 视 图 支持 切片 赋值 运算 ， 这 时 会 创建 一 个 临时 的 内 存 视 图 结构 体 ， 然 后 在 两 个 内 存 
视图 结构 体 之 间 进 行 数据 复制 。@ 对 内 存 视图 使 用 切片 下 标 读 取 时 将 创建 一 个 新 的 视图 ， 并 将 
此 视图 传递 给 norm0) 函 数 。 


在 这 个 例子 中 我 们 通过 注释 拓 ython 设 置 boundscheck 和 wraparound 编译 选项 。 


%%cython 

#cython: boundscheck=False, wraparound=False 
import numpy as np 

import cython 


cpdef norm(double[:] x): 

cdef double s 

cdef int i 

s=0 

for i in range(x.shape[6]): 
s += x[i]*x[i] 

5 m1 5**0.5 

for i in range(x.shape[6]): 
XE es 


def norm axis(double[:, :] x, int axis=6，bint inplace=True): 
cdef int i 
cdef double[:, :] data 
if not inplace: 


data = np.empty_ like(x) 
data[:] = x © 

else: 
data = X 


if axis == 1: 
for i in range(data.shape[6]): 
norm(data[i, :]) @ 
elif axis == 6: 
for i in range(data.shape[1]): 
norm(data[:, i]) 


return data.base 


还 可 以 通过 地 址 运算 符 获 得 内 存 视 图 中 数据 的 地 址 ， 将 其 作为 指针 传递 给 C 语 言 的 函数 。 
在 下 面 的 例子 中 ，@ 通 过 cimport 从 C 语 言 的 标准 头 文件 string.h 中 载 入 memcpy0 函 数 ， 其 函数 
原型 如 下 : 它 将 由 src 指向 地 址 为 起 始 地 址 的 连续 n 个 字 节 的 数据 复制 到 以 dst 指向 地 址 为 起 始 
地 址 的 空间 内 。 


void *memcpy(void *dst, const void *src, size t n); 


@ 通 过 地 址 运算 符 & 获 得 指向 内 存 视图 第 一 个 元 素 的 指针 ，&dst[0] 得 到 的 是 一 个 double * 
类 型 的 指针 。 由 于 memcpy0 接 收 的 是 字 节 长 度 ， 因 此 这 里 使 用 sizeof(double) 计 算 双 精 度 浮 点 数 
的 字 节 数 并 乘 以 内 存 视 图 第 0 轴 的 长 度 。 

请 注意 这 里 的 内 存 视 图 是 连续 的 ， 因此 可 以 直接 使 用 memcpy0 进 行内 存 的 复制 。 如 果 不 

是 连续 的 ， 需 要 将 strides 属性 一 起 传递 给 C 语 言 函 数 ， 这 样 才能 在 其 中 正确 访问 内 存 视 图 的 
元 素 。 


Xx%cython 
from libc.string cimport memcpy © 


def copy_memview(double[::1] src, double[::1] dst): 
memcpy(&dst[6]，&src[86]，sizeof(double)*dst.shape[6]) © 


a = np.random.rand(16) 
b = np.zeros_like(a) 
copy_memview(a, b) 
assert np.all(a == b) 


还 可 以 通过 类 型 转换 操作 将 C 语 言 的 指针 转换 成 内 存 视 图 。 例如， 如果 addr 是 一 个 指针 ， 
可 以 通过 <double[:10]>addr 将 其 转换 为 一 个 长 度 为 10 的 双 精 度 浮 点 数 的 内 存 视图 ， 长 度 可 以 使 
变量 表示 。 不 过 在 进行 这 种 转换 时 , 要 十 分 注意 内 存 的 分 配 和 释放 , 否则 可 能 会 出 现 野 指 针 ， 
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造成 整个 程序 崩溃 。 

10.3.2 ”用 降 采样 提高 绘图 速度 

当 使 用 matplotlib 显示 一 条 拥有 大 量 数据 点 的 曲线 时 ， 绘 图 速度 会 明显 降低 。 由 于 屏幕 的 

分 辨 率 有 限 ， 绘 制 大 量 的 线段 并 不 能 增加 图 表 显 示 的 信息 ， 因 此 一 般 在 显示 大 量 数据 时 都 会 对 

其 进行 降 采 样 运算 。 由 于 这 种 运算 需要 对 数组 中 的 每 个 元 素 进行 迭代 ， 因 此 需要 使 用 Cython 
下 面 演示 如 何 使 用 Cython 进行 快速 降 采 样 运算 。 首 先 创建 测试 数据 ， 在 正弦 波 信号 中 夹 

杂 着 1% 的 脉冲 信号 。 


import numpy as np 


def make_noise_sin wave(period, n): 
np.random. seed(42) 


x = np.random.uniform(8, 2*np.pi*period, n) 

x.sort() 

y = np.sin(x) 

m= int(n*0.81) 

y[np.random.randint(8, n, m)] += np.random.randn(m) * 8.4 


return x, y 
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x, y = make_noise_sin_wave(196，16666) 

无 论 怎 样 降低 取样 频率 , 我 们 都 希望 能 够 显示 这 些 脉 冲 信 号 ,因此 不 能 简单 地 使 用 每 N 个 
点 取 一 个 点 的 方法 。 图 10-2 显示 了 一 种 能 尽量 保持 所 有 局 域 最 值 的 方法 。 将 X 轴 的 范围 等 分 为 
NN 个 区 间 ， 找 到 每 个 区 间 的 最 小 值 和 最 大 值 的 X 轴 坐标 ,对 这 些 坐 标 按照 从 小 到 大 的 顺序 排序 
之 后 ， 就 得 到 了 降 采 样 之 后 的 X 轴 坐标 。 


到 10-2 降低 取样 频率 示意 图 


F 面 首先 使 用 Python 实现 上 述 算法 , get_peaks_py0 的 x 和 y 参数 分 别 是 曲线 上 各 点 的 X 轴 
和 立轴 坐标 ，x 中 的 值 必须 是 递增 且 等 间隔 的 。n 为 降低 取样 频率 之 后 的 数据 点 数 ，x0 和 xl 为 
目标 区 域 。 如 果 为 None， 就 对 整 条 曲线 进行 处 理 。 

为 了 测试 程序 是 否 运行 正确 ， 读 者 可 以 将 由 x、y 表示 的 原始 曲线 和 由 xr、yr 表示 的 降 取 
样 曲线 绘制 在 同一 个 图 表 中 ， 比 较 二 者 的 差别 。 
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def get peaks py(x, y, n, x@=None, x1=None): 
if x@ is None: 


x@ = x[6] 
if xl is None: 
xl = x[-1] 


index8@, index1 = np.searchsorted(x, [x@, x1]) 
index1 = min(index1, len(x) - 1) 
x0, x1 = x[index@], x[index1] 
dx = (x1 - x6)/n 


i = index6 

x_min = x_max = x[i] 
ymin = y max = y[i] 
X_next = x0 + dx 


xr, yr = np.empty(2 * n), np.empty(2 * n) 
j= 


while True: 
xc, yc = x[i], y[i] 
if xc >= X_next or i == index1: 
if x_ min > x_max: 
x_min, x _ max = x_max, x_min 
ymin, y max = y_max, y_min 
xr[j], xr[j + 1] 
yr[j], yr[j + 1] = y_min, y_max 
j+*=2 


x_min, x_max 


X_min = x_ max = XC 
ymin = y max = yc 
X_next += dx 
if i == index1: 
break 
else: 
if y min > yc: 
x_min, y min = xc, yc 
elif y max < yc: 
x max, y_max = xc, yc 


i+=1 


return xr[:j], yr[:j] 


xr, yr = get_peaks py(x, y, 280) 
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下 面 对 上 述 代码 添加 Cython 的 类 型 声明 ， 就 可 以 将 其 编译 成 能 快速 执行 的 C 语言 程序 。 
@ 为 了 获得 最 佳 运行 速度 ， 将 wraparound 和 boundscheck 设置 为 False，@ 由 于 禁止 了 


wraparound， 因 此 不 能 使 用 负数 作为 下 标 ， 所 以 这 里 将 x[-1] 改 为 x[len(x)-1]。 


日: 


将 内 存 视 图 传递 给 Python 函数 时 , 它 将 被 转换 为 MemoryView 对 象 , 而 在 searchsorted0 


中 会 通过 asarray0 将 其 转换 成 NumPy 数组 。 当 然 此 处 也 可 以 使 用 x.base 直接 将 数组 对 象 传递 给 
searchsorted()。 
@ 为 了 让 函数 返回 数组 ， 需 要 通过 base 属性 获得 内 存 视 图 对 应 的 NumPy 数组 ， 然 后 对 该 


数组 进 和 


J 切片 运算 。 


X%%cython 
import numpy as np 
import cython 


@cython.wraparound(False) © 
@cython.boundscheck(False) 


def 


594 


get_peaks(double[::1] x, double[::1] y, int n, x@=None, x1=None): 
cdef int i, j, index8@, index1 

cdef double x min, x_ max, y_min, y_max, xc, yc, x next, dx 

cdef double[::1] xr, yr 


if x8 is None: 
x@ = x[8] 
if xl is None: 
xl = x[len(x) - 1] @ 


index@, index1 = np.searchsorted(x, [xe, x1]) © 
index1 = min(index1, len(x) - 1) 

x@, x1 = x[index@], x[index1] 

dx = (xl - x0) /nn 


i = index@ 

xmin = x_max = x[i] 
ymin = y max = y[i] 
X_next = x@ + dx 


xr = np.empty(2 * n) 
yr = np.empty(2 * n) 
j=0 


while True: 


xc, yc = x[i], y[i] 
if xc >= X_next or i == index1: 


if x min > x_max: 
x min, x max = x_max, x_min 
ymin, y max = y_max, y_min 
xr[j], xr[j + 1] = x _min, x_max 
yr[j], yr[lj + 1] = ymin, y_max 
j+=2 


x min = x max = XC 

ymin = y max = yc 

x_next += dx 

if i == index1: 
break 

else: 

if y min > yc: 
x min, y_ min = xc, yc 

elif y max < yc: 
X_max，y_max = xc, yc 

i+=1 


return xr.base[:j], yr.base[:j] @ 


下 面 比较 get_peaks_py0 和 get_peaks0 的 运算 结果 和 运行 速度 。 可 以 看 到 结果 相同 ， 而 
get_peaks0 的 运行 速度 提高 了 100 多 倍 。 
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xr, yr = get_peaks_py(x，y，266) 
xr2, yr2 = get_peaks(x，y，266) 
print np.allclose(xr, xr2), np.allclose(yr, yr2) 


%timeit get_peaks_py(x，y，266) 

%timeit get_peaks(x，y，266) 

True True 

166 loops, best of 3: 9.55 ms per loop 
16666 loops, best of 3: 78.7 hs per loop 


[@® scpy2.cython fast_curve_draw 演示 了 使 用 降 采 样 提高 matplotlib 的 曲线 绘制 速度 。 降 采 
[DO 样 沟 数 为 scpy2.cython.get_peaks()。 


scpy2.cython.fast_curve_draw 使 用 matplotlib 演示 get_peaks0 的 效果 ， 在 子 图 对 象 的 
xlim_changed 事件 中 对 曲线 位 于 当前 X 轴 的 显示 范围 内 的 部 分 进行 降 取样 ， 并 更 新 曲线 对 象 的 
数据 ， 即 可 提高 曲线 的 绘制 速度 。 读 者 可 以 用 鼠标 右键 拖 动 缩放 显示 范围 时 可 以 看 到 响应 速度 
提高 了 很 多 。 
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10.4 使 用 Python 标准 对 象 和 API 


A 与 本 节 内 容 对 应 的 Notebook 为 : 10-cython/cython-400-python-apiipynb。 


在 102 节 中 已 经 介绍 过 Cython 可 以 识别 Python 的 许多 内 置 类 型 的 常用 操作 ， 提 高 运算 速 
度 。 此 外 还 可 以 在 Cython 中 调用 Python/C API 函数 ， 实 现 一 些 只 有 在 C 语 言 中 才能 完成 的 
操作 。 


10.4.1 ”操作 list 对象 


在 Python 中 可 先 创建 一 个 空 列表 ， 然 后 通过 append0 方 法 往 其 中 添加 元 素 ， 或 者 通过 
[Nonej*n 创建 一 个 拥有 n 个 元 素 的 列表 ,然后 通过 下 标 设 置 列表 的 内 容 。 在 Cython 中 可 以 通过 


调用 操作 列表 的 API 函数 ， 提 高 创建 列表 的 速度 。 
下 面 的 代码 对 比 使 用 API 函数 和 append0 方 法 创建 列表 的 速度 。 在 my_range0 中 调用 女 
三 个 API 函数， 
e@ object PyList_New(Py_ssize_t len): 创建 指定 大 小 的 列表 ， 列 表 的 元 素 设置 为 NULL。 注 
意 这 里 的 NULL 是 C 语言 的 空地 址 ， 而 不 是 Python 的 None 对 象 。 也 就 是 说 ， 这 个 列表 
虽然 已 经 被 创建 了 ， 但 是 其 中 的 内 容 还 没有 初始 化 ， 无 法 在 Python 中 使 用 。 
® void PyList_SET_ITEM(objectlist, Py_ssize_ti, objecto): 设置 列表 list 的 指定 下 标 i 的 内 
容 为 o。 它 实际 上 是 C 语 言 中 的 一 个 宏 , 可 以 用 于 快速 设置 元 素 为 NULL 的 列表 中 的 
元 素 。 
e voidPy_INCREF(objecto): 将 对 象 o 的 引用 计数 器 加 1。 当 调 用 PyList_SET_ITEMO 将 对 
象 o 添 加 进 列表 时 ， 该 列表 就 应 该 增加 对 象 o 的 引用 计数 器 ， 然 而 PyList_SET_ITEMO 
并 不 会 自动 增加 被 添加 的 对 象 的 引用 计数 器 , 因此 需要 调用 Py_INCREFO。 这 种 不 增加 
引用 计数 的 函数 在 Python API 说 明文 档 中 会 被 注 明 为 : “steals a reference”。 


所 


Xipcython 

#cython: boundscheck=False, wraparound=False 

from cpython.list cimport PyList New, PyList SET_ITEM © 
from cpython.ref cimport Py_INCREF 


def my_range(int n): 
cdef int i 
cdef object obj @ 
cdef list result 
result = PyList_ New(n) 


for i in range(n): 
obj = i 
PyList_SET_ITEM(result, i, obj) 
Py_INCREF(obj) 

return result 


def my_range2(int n): 
cdef int i 
cdef list result 
result = [] 
for i in range(n): 
result .append(i) 
return result 


@ 使 用 cimport 从 Cython 头 文件 中 载 入 PyList_New 和 PyList_SET_ITEM 这 两 个 函数 声明 。 
Cython 的 头 文件 以 .pxd 为 扩展 名 ， 和 C 语 言 的 头 文件 类 似 ， 可 以 包含 各 种 函数 和 类 型 的 定义 。 

可 以 在 Cython 的 安装 目录 之 下 的 Includes 目录 下 找到 所 有 的 Cython 头 文件 。 其 中 numpy 
目录 下 包含 NumPy 相关 的 类 型 和 API 函数 的 声明 , libc 目录 下 包含 C 语 言 标准 库 中 的 各 个 函数 
的 声明 ，cpython 目录 下 包括 PythonC API 的 函数 声明 。 

@obj 变量 用 于 临时 保存 将 C 语 言 整数 变量 i 转换 成 的 Python 整数 对 象 。 

由 于 my_range0 直 接 创 建 目标 大 小 的 列表 ， 省 去 了 逐步 扩容 带 来 的 损耗 ， 因 此 速度 是 使 用 
append0 的 两 倍 多 。 

%timeit range(166) 

%timeit my_range(166) 

%timeit my_range2(166) 

1666666 loops, best of 3: 1.24 hs per loop 


1666666 loops, best of 3: 1.64 hs per loop 
166666 loops, best of 3: 2.29 hs per loop 


10.4.2 创建 tuple 对 象 
在 Python 中 tuple 对 象 是 不 可 变 的 ,但 是 可 以 在 Cython 中 调用 API 函数 ,在 创建 tuple 对 象 
时 设置 其 内 容 ， 从 而 实现 快速 创建 tuple 对 象 。 下 面 的 to_tuple_list0 通 过 调用 API 函数 将 二 维 数 
组 转换 成 元 组 列表 。 
和 列表 相同 ， 元 组 也 有 对 应 的 初始 化 函数 : PyTuple New 和 PyTuple_ SET_ITEM。 它 们 的 
用 法 和 列表 的 相同 ， 这 里 不 再 重复 了 。 


Xipcython 

#cython: boundscheck=False, wraparound=False 

from cpython.list cimport PyList New, PyList SET_ITEM 
from cpython.tuple cimport PyTuple New, PyTuple SET_ITEM 
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from cpython.ref cimport Py_INCREF 


def to tuple list(double[:, :] arr): 
cdef int m, n 
cdef int i, j 
cdef list result 
cdef tuple t 
cdef object obj 


m, n = arr.shape[8], arr.shape[1] 
result = PyList New(m) 
for i in range(m): 
t = PyTuple_New(n) 
for j in range(n): 
obj = arr[i, j] 
PyTuple_SET_ITEM(t, j, obj) 
Py_INCREF(obj) 
PyList_SET_ITEM(result, i, +t) 
Py_INCREF(t) 
return result 


F 面 比较 Numpy 数组 的 tolist0 方 法 和 to_tuple_list0 的 速度 : 
import numpy as np 


arr = np.random.randint(8, 10, (5, 2)).astype(np.double) 
print to tuple_list(arr) 


arr = np.random.rand(160, 5) 

%timeit to_ tuple list(arr) 

%timeit arr.tolist() 

[(8.6, 4.0), (5.6, 7.0), (7.0, 0.0), (5.0, 5.0), (5.06, 9.6)] 
166666 loops, best of 3: 13 hs per loop 

16666 loops, best of 3: 26.5 hs per loop 


10.4.3 用 array.array 作为 动态 数组 


在 NumPy 一 章 中 我 们 曾 介 绍 过 ， 可 以 将 Python 的 标准 模块 array 中 的 array 对 象 当 作 一 维 
动态 数组 使 用 ,在 Cython 代 码 中 ,也 同样 可 以 用 array.aray 对 象 作为 动态 数组 .然而 如 果 在 Cython 
代码 中 调用 array.append0 添 加 元 素 ， 则 需要 调用 Python 的 函数 对 象 ， 起 不 到 提速 的 作用 。 在 
Cython 的 cpython/array.pxd 头 文件 中 提供 了 快速 操作 array 对 象 的 C 函数 。 

下 面 的 in_circle0 收 集 二 维 坐标 数组 points 中 所 有 位 于 由 cx\cy 和 tr 表示 的 圆 形 内 部 的 坐标 。 
中 (cxcy) 为 圆心 坐标 ，r 为 圆 的 半径 。 由 于 事先 无 法 知道 有 多 少 点 位 于 圆 形 内 部 ， 因 此 程序 中 
使 用 array.array 动态 数组 逐个 添加 满足 条 件 的 点 


By 


X%%cython -c-Ofast 
#cython: boundscheck=False, wraparound=False 


import numpy as np 


from 


cpython cimport array 


def in_circle(double[:，:] points，double cx, double cy, double r): 


cdef array.array[double] res = array.array("d") © 
cdef double r2=r*r 

cdef double p[2] @ 

cdef int i 


for i in range(points.shape[8]): 


p[8] = points[i, 8] 

p[1] = points[i, 1] 

if (p[6] - cx)**2 + (p[1] - cy)**2 < r2: 
array.extend_buffer(res, <char*>p, 2) © 


return np.frombuffer(res, np.double).copy().reshape(-1, 2) © 


Of 


] cimport 关键 字 载 入 array 的 头 文件 之 后 ， 使 用 其 中 的 array.array 类 型 定义 一 个 Cython 


变量 res， 并 创建 一 个 新 的 array.array 对 象 给 它 ，"d" 表 示 元 素 类 型 为 双 精 度 浮 点 数 。@p 是 有 两 
个 元 素 的 C 语言 数组 ， 我 们 用 它 临 时 保存 当前 处 理 的 点 的 坐标 。 四 调用 array.extend_buffer0 将 p 


添加 进 n 
此 向 竺 


es 中 。extend_buffer0 的 第 一 个 参数 是 array.array 对 象 ， 第 二 个 参数 是 一 个 char* 指 针 ， 它 
加 数据 的 首 地 址 ， 第 三 个 参数 是 待 添加 元 素 的 个 数 是 字 节 数 )。@ 最 后 ， 通 过 


numpy.frombufferO 创 建 与 res 共享 内 存 的 NumPy 数组 , 我 们 复制 该 数组 以 便 Python 垃圾 回收 res 


对 象 。 


下 面 比较 in_circle0 和 使 用 NumPy 相关 方法 的 运算 速度 ， 当 大 多 数 点 都 位 于 圆 形 之 外 时 ， 
in_circle0 的 运算 速度 将 更 快 一 些 。 


[到 


本 例 的 目的 是 为 了 演示 array.array 动态 扩容 ， 实 际 上 使 用 布尔 数组 有 可 能 得 到 更 快 的 
运算 速度 。 


points = np.random.rand(160600, 2) 
Cx, CY, rT = 0.3, 0.5, 0.05 


%timeit points[(points[:, 8] - cx)**2 + (points[:, 1] - Cy)**2 < r**2, :] 
Xtimeit in circle(points, cx, cy, r) 

16666 loops, best of 3: 97.7 hs per loop 

16666 loops, best of 3: 38.6 hs per loop 
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10.5 扩展 类 型 


A 与 本 节 内 容 对 应 的 Notebook 为 : 10-cython/cython-500-cdef-classipynb。 


在 Python 中 通过 class 定义 的 类 采用 字典 保存 实例 的 属性 ,然而 为 了 提高 属性 的 访问 速度 ， 
Python 内 置 的 类 型 则 直接 将 其 属性 保存 在 对 象 结构 体 的 字段 中 。 在 Cython 中 则 可 以 通过 cdef 
class 定义 扩展 类 型 。 扩展 类 型 和 Python 的 内 置 类 型 一 样 , 采用 C 语 言 的 结构 体 保存 对 象 的 各 个 
属性 ， 因 此 在 Cython 程序 中 能 够 快速 存 取 这 些 属性 。 扩 展 类 型 很 适合 用 于 包装 C 语言 的 函数 
库 ， 提 供 面 向 对 象 的 Python 调用 接口 。 


10.5.1 扩展 类 型 的 基本 结构 


下 面 的 程序 使 用 cdef class 定义 扩展 类 型 Point2D, 并 使 用 cdef 定 义 属性 x 和 y。 注 意 和 Python 
的 类 不 同 ， 扩 展 类 型 的 属性 在 类 中 定义 ， 而 不 是 在 _init_0 方 法 中 生成 。 


%%cython 


cdef class Point2D: 
cdef public double x, y 


Cython 将 自动 定义 如 下 结构 体 来 表示 Point2D 对 象 , 由 于 ob_refcnt 和 ob_type 两 个 字段 是 所 
有 Python 对 象 必须 具备 的 , 因此 在 Python 的 C 语 言 代码 中 它们 通常 使 用 PyObjecL HEAD 安 定义 。 
struct _pyx_obj_Point2D { 
PyObject_HEAD 


double x; 
double y; 


}; 

在 Cython 程序 内 部 ， 当 它 明 确 知 道 对 象 p 的 类 型 为 Point2D 时 ，p.x 将 被 转换 成 直接 访问 
Point2D 结构 体 的 x 字段 ， 因 此 对 扩展 类 型 变量 的 属性 存 取 是 非常 迅捷 的 。 为 了 在 Python 中 访 
问 Point2D 的 x 和 y 属 性 ,需要 在 声明 属性 时 使 用 public 关键 字 。Cython 能 自动 为 整 型 、 浮 点 型 、 
字符 串 类 型 以 及 Python 对 象 类 型 这 4 种 cdef 属性 创建 属性 访问 用 的 描述 器 。 这 些 描述 器 包含 
_ get_0 和 _ set_( 方 法 ， 用 以 获取 和 设置 属性 。 对 于 只 读 属性 ， 可 以 将 public 关键 字 替 换 为 
readonly。 下 面 的 代码 查看 x 对 应 的 属性 访问 描述 器 : 


print type(Point2D.x) 
print Point2D.x. get __ 
print Point2D.x._ set__ 


<type 'getset descriptor'> 
<method-wrapper '_ get ' of getset descriptor object at 6x697A3266> 
<method-wrapper '_ set_' of getset descriptor object at 6x697A3266> 


和 定义 函数 相同 ， 扩 展 类 型 中 可 以 使 用 def、cdef 和 cpdef 定义 对 象 的 方法 。 所 有 方法 都 可 
以 在 Cython 中 调用 , 而 只 有 def 和 cpdef 定义 的 方法 可 以 在 Python 中 调用 。 在 Cython 中 调用 cdef 
和 cpdef 方 法 时 ， 直 接 调 用 对 应 的 C 语 言 函数 ， 因 此 效率 比 def 方法 要 高 很 多 。 
扩展 类 型 支持 从 其 他 扩展 类 型 继承 , 例如 下 面 的 Point3D 从 Point2D 继承 , 并 增加 了 字段 z: 


X%%cython -a 


cdef class Point2D: 
cdef public double x, y 


cdef class Point3D(Point2D): 
cdef public double z 


cdef Point3D p = Point3D() 


p.x = 1.06 
p.y = 2.06 
p.z = 3.6 


Point3D 对 象 对 应 的 C 语 言 结构 体 如 下 : 
struct _ pyx_obj_Point3D { 
struct _ pyx_obj Point2D _ pyx_base; 
double z; 
也 
它 的 第 一 个 字段 _pyx_base 是 其 基 类 Point2D 对 应 的 结构 体 。 在 Cython 中 通过 _ pyx_base.x 
访问 基 类 中 定义 的 属性 x， 而 在 Python 中 ， 则 通过 Point3D._base_ 中 x 对 应 的 描述 器 访问 该 
属性 。 
10.5.2 一 维 浮 点 数 向 量 类 型 


下 面 我 们 以 一 维 浮 点 数 向 量 Vector 类 型 为 例 介 绍 扩 展 类 型 的 用 法 。Vector 对象 拥 有 两 个 私 
有 属性 : count 表示 数组 的 长 度 ，data 为 存储 数组 数据 的 首 地 址 。 


cdef class Vector: 
cdef int count 
cdef double * data 


在 创建 一 个 新 的 Vector 对 和 象 时 , 会 从 堆 内 存 中 分 配 一 个 结构 体 。 在 结构 体 的 内 存 分 配 完毕 
之 后 ， 应 该 立即 初始 化 其 中 的 属性 。 这 个 初始 化 工作 由 _cinit 0 完成 ,可 以 将 之 理解 为 C 语 言 
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级 别 的 _init_0。Vector 对 象 支持 两 种 初始 化 方式 : 分 配 指 定 大 小 的 内 存 ， 或 者 使 用 一 个 序列 
对 象 初始 化 数组 的 内 容 。 这 里 使 用 Python API 中 的 PyMem_Malloc0 从 Python 管理 的 堆 中 分 配 存 
储 数组 数据 的 内 存 。 为 了 使 用 该 API 函数 ， 需 要 使 用 from cpython cimport mem 载 入 声明 内 存 管 
理 API 函数 的 头 文件 。 


def _cinit (self, data): 
cdef int i 
if isinstance(data, int): 
self.count = data 
else: 
self.count = len(data) 
self.data = <double *>mem.PyMem Malloc(sizeof(double)*self.count) 
if self.data is NULL: 
raise MemoryError 


if not isinstance(data, int): 
for i in range(self.count): 
self.data[i] = data[i] 


当 对 象 的 引用 计数 变 为 0 时 ， 将 被 垃圾 回收 。 在 对 象 结构 体 被 回收 之 前 ，Cython 会 调用 
dealloc 0， 在 这 里 需要 释放 data 属 性 指向 的 内 存 : 
def _ dealloc_(self): 


if self.data is not NULL: 
mem.PyMem_Free(self.data) 


为 了 让 Vector 对 象 支持 整数 下 标 存 取 和 循环 迭代 ， 需 要 定义 _len_0、_getitem_0O 和 
setitem 0 等 方法 。 这 种 以 两 个 下 划 线 开头 和 结尾 的 方法 被 称 为 魔法 方法 , 通过 定义 这 些 方法 
可 以 改变 对 象 在 某 种 特定 语法 中 的 行为 。 例 如 查看 对 象 长 度 的 内 置 函数 len(obj) 实 际 上 返回 
obj._len_0 的 值 ， 而 objlindex] 会 调用 obj，getitem__(index) ，obj[index] = value 则 会 调用 
obj， setitem__(index, value)。 如 果 某 个 类 型 定义 了 _ len_0O 和 getitem 0， 则 其 对 象 会 自动 支持 
for 循 环 以 迭代 其 中 的 元 素 。 

在 下 面 的 程序 中 ，， getitem_0O 和 setitem。 0 要 求 其 下 标 参 数 为 整 型 ， 因 此 Vector 对 象 不 
支持 切片 下 标 。 我 们 将 支持 负数 下 标 和 下 标 越界 检查 单独 放 在 _check_index0 方 法 中 ， 该 方法 的 
参数 是 一 个 整 型 指针 ， 可 以 直接 修改 传 进来 的 下 标 变量 。 如 果 下 标 越界 ， 则 抛 出 IndexError 异 
常 。 在 Cython 中 使 用 p[0] 访 问 指针 变量 p 指 向 的 地 址 。 


def _ len_(self): 
return self.count 


cdef check index(self, int *index): 
if index[6] < 6: 


index[8] = self.count + index[6] 
if index[6] < 6 or index[8] > self.count - 1: 
raise IndexError("Vector index out of range") 


def _ getitem (self, int index): 
self._check_index(&index) 
return self.data[index] 


def _ setitem (self, int index, double value): 
self._check_index(&index) 
self.data[index] = value 


为 了 让 Vector 对 象 支 持 加 法 运算 符 ， 需 要 定义 _add_0 方 法 : 


def _add_(self, other): 
cdef Vector new, _self, _other 


if not isinstance(self, Vector): © 
self, other = other, self 
_self = <Vector>self © 


if isinstance(other, Vector): @ 
_other = <Vector>other 
if _self.count != _other.count: 

raise ValueError("Vector size not equal") 

new = Vector(_self.count) © 
add_array(_self.data，_other.data，new.data，_self.count) 
return new 

new = Vector(_self.count) 

add_number(_self.data, “double>other，new.data，_self.count)@ 


return new 


对 于 _add_0、_mul_0 这 样 的 二 元 运算 的 魔法 方法 ， 第 一 个 参数 self 可 能 不 是 当前 的 对 
象 。 当 第 一 个 参数 对 象 无 法 完成 运算 时 ， 将 调用 第 二 个 参数 对 象 的 魔法 方法 ， 而 参数 的 顺序 不 
变 。 例 如 , 如 果 调用 1+v 其 中 v 是 一 个 Vector 对 象 , 那么 整数 1 的 _add_0 函 数 调用 将 失败 ， 
因此 调用 Vector，add_0 时 参数 self 为 1， 参数 other 为 v。 
程序 中 ，@ 首 先 判断 self 的 类 型 是 否 为 Vector， 如 果 不 是 ， 就 交换 self 和 other 所 表示 的 对 
象 .@ 由 于 _add_0 能 处 理 数 值 和 Vector 对 象 ,因此 需要 根据 other 对 象 的 类 型 进行 不 同 的 处 理 。 
目 由 于 self 和 other 变量 没有 类 型 声明 ， 因 此 无 法 通过 它们 获取 保存 于 C 语 言 结构 体 中 的 属性 。 
通过 <Vector> 将 Python 对 象 转换 成 拥有 类 型 的 变量 sef 和 _other, 通过 这 两 个 变量 可 以 访问 count 
和 data 属性 。@ 创 建 保存 运算 结果 的 Vector 对 象 ， 并 调用 add_array0 或 add_number0 进 行 计算 ， 
稍 后 会 介绍 这 两 个 函数 的 代码 。 
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下 面 是 += 操 作 符 对 应 的 魔法 方法 _jiadd_( 


def _iadd_ (self, other): 
cdef Vector other 
if isinstance(other, Vector): 
_other = <Vector>other 
if self.count != _other.count: 
raise ValueError("Vector size not equal") 
add_array(self.data, _other.data, self.data, self.count) 
else: 
add_number(self.data, <double>other, self.data, self.count) 
return self 


和 二 元 操作 符 不 同 ，_iadd_0 的 第 一 个 参数 就 是 当前 对 象 ， 因 此 Cython 知道 它 的 类 型 ， 
无 须 再 进行 类 型 转换 。 
下 面 用 cpdef 定义 norm( 方 法 以 计算 矢量 的 长 度 ， 并 在 _str_0 中 调用 它 。 当 将 对 象 转换 成 
字符 串 时 ， 将 调用 _str_ (0 方法。cpdef 定义 的 方法 会 同时 生成 Cython 和 oe 调用 接口 ， 在 
_ str_0 中 通过 Cython 的 调用 接口 运行 nomm0， 而 在 Python 中 则 通过 较 慢 的 接口 调用 norm0。 


def _ str_ (self): 
values = ", ".join(str(self.data[i]) for i in range(self.count)) 
norm = self.norm() 
return "Vector[{}]({})".format(norm, values) 


cpdef norm(self): 
cdef double *p 
cdef double s 


cdef int i 
s=0 
p= self.data 


for i in range(self.count): 
s += p[i] * p[i] 
return s**0.5 
此 外 ， 扩 展 类 型 可 以 在 Python 中 继承 ， 覆 盖 基 类 中 定义 的 def 和 cpdef 方法 ，Python 中 定 
义 的 覆盖 方法 可 以 在 Cython 中 正确 调用 。 由 于 在 Cython 中 调用 cpdef 方法 时 ， 需 要 检查 此 方法 
是 否 被 覆盖 ， 因 此 其 调用 速度 要 略 比 cdef 慢 。 
最 后 在 代码 的 头 部 添加 进行 计算 的 add_aray0 和 add_number0 两 个 函数 ， 它 们 采用 cdef 定 
义 ， 只 能 在 Cython 代码 内 部 调用 。 
cdef add_array(double *op1，double *op2，double *res, int count): 


cdef int i 
for i in range(count): 


res[i] = opl[i] + op2[i] 


cdef add_number(double *op1l, double op2, double *res, int count): 
cdef int i 
for i in range(count): 

res[i] = opl[i] + op2 


读者 可 以 试 着 完成 其 他 二 元 计算 函数 以 及 元 素 存 取 函 数 。 下 面 演示 Vector 对 象 的 用 法 : 


from scpy2.cython.vector import Vector 
v1 = Vector(range(5)) 

Vv2 = Vector(range(166，165)) 

print len(v1) 


print v1 + v2 

print vl + 2 

print 26 + v2 

print v1.norm(), v2.norm() 
print [x**2 for x in v1] 

5 
Vector[232.637656378](168.6，162.6，164.6，166.6，168.6) 


Vector[9.48683298651](2.6，3.6，4.6，5.6，6.6) 
Vector[272.818621065](120.0, 121.0, 122.0, 123.0, 124.0) 
5.47722557565 228.166854887 


[8.0, 1.0, 4.0, 9.0, 16.0] 
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nl 


v1 = Vector(range(16660)) 
V2 = Vector(range(16666)) 
%timeit v1 + v2 


nl 


al = np.arange(16688，dtype=float) 

a2 = np.arange(16669，dtype=float) 
%timeit al + a2 

166666 loops，best of 3: 8.64 hs per loop 
166666 loops, best of 3: 9.68 hs per loop 


下 面 比较 Vector 对象 和 NumPy 数组 的 元 素 存 取 速 度 : 


%timeit v1[166] 
Xtimeit v1[166] = 2.6 
%timeit al[166] 
%timeit al[166] = 2.6 
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16666666 loops, best of 3: 62.2 ns per loop 
16666666 loops, best of 3: 62.1 ns per loop 
16666666 loops, best of 3: 122 ns per loop 
16666666 loops, best of 3: 168 ns per loop 


10.5.3 ”包装 ahocorasick 库 


扩展 类 型 经 常用 于 对 C 语言 函数 库 进行 包装 ， 提 供 一 个 面向 对 象 的 Python 调用 接口 。 本 
节 以 包装 “多 模式 匹配 算法 ”的 C 语言 库 ahocorasick 为 例 ， 介 绍 使 用 扩展 类 型 包装 C 语 言 函数 
库 的 方法 。 


F 面 演示 一 下 该 扩展 类 型 的 使 用 方法 。 首 先 使 用 一 组 关键 字 创建 MultiSearch 对 象 , 然后 调 
用 其 isin0 方 法 ， 在 目标 字符 串 中 搜索 关键 字 ， 只 要 有 一 个 关键 字 存在 于 该 字符 串 中 ， 就 返回 
True， 和 否则 返回 False。 


[© scpy2.cython.multisearch 模块 对 C 语言 函数 库 ahocorasick 进行 包装 。 使 用 该 模块 可 以 
[加 ” 快 速 在 大 量 文本 中 同时 搜索 多 个 关键 字 。 


from scpy2.cython import MultiSearch 


ms = MultiSearch(["abc", "xyz"]) 
print ms.isin("123abcdef") 

print ms.isin("123uvwxyz") 
print ms.isin("123456789") 

True 

True 

False 


search() 方 法 可 用 于 在 目标 字符 串 中 搜索 关键 字 所 在 的 位 置 , 它 的 第 二 个 参数 为 一 个 回调 函 
数 ， 每 找到 一 个 匹配 位 置 就 将 该 位 置 和 匹配 的 关键 字 传 递 给 该 回调 函数 。 回 调 函数 返回 0 表示 
继续 搜索 ， 返 回 1 表示 结束 搜索 。 


def process(pos, pattern): 
print "found {80} at {1}".format(pattern, pos) 
return @ 


ms.search("123abc456xyz789abc",，, process) 
found abc at 3 

found xyz at 9 

found abc at 15 


还 可 以 使 用 iter_search0 方 法 返回 一 个 迭代 器 : 


for pos, pattern in ms.iter_search("123abc456xyz789abc"): 
print "found {6} at {1}".format(pattern, pos) 

found abc at 3 

found xyz at 9 

found abc at 15 


在 开始 编写 扩展 类 型 之 前 ， 让 我 们 先 看 看 在 C 语 言 中 如 何 使 用 该 库 : 


#include “stdio.h> 
#include "ahocorasick.h" 


/* 搜索 关键 字 列表 */ 
AC_ALPHABET t * allstr[] = { 
"recent", "from", "college" 


}; 
#define PATTERN_NUMBER (sizeof(allstr)/sizeof(AC ALPHABET 七 *)) 


/* 搜索 文本 */ 
AC ALPHABET t * input text = {"She recently graduated from college"}; 


/A/*** 匹配 时 的 回调 函数 
int match_handler(AC MATCH t * m, void * param) 


{ 
unsigned int j; 
printf ("@ %1d : %s\n", m->position, m->patterns->astring); 
/* 返回 @ 继续 搜索 ， 返 回 1 停止 搜索 */ 
return @; 
} 


int main (int argc, char ** argv) 
unsigned int i; 
AC AUTOMATA t * acap; 
AC_PATTERN t tmp_patt; 


AC_ TEXT_t tmp_ text; 


//### 创建 AC_AUTOMATA 结构 体 ， 并 传递 回调 函数 


acap = ac_automata init(); 


//*** 添加 关键 字 
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for (i=8; ixPATTERN_NUMBER; i++) 


tmp_patt.astring = allstr[i]; 
tmp_patt.rep.number = i+1; // optional 
tmp_patt.length = strlen(tmp patt.astring); 
ac_automata_add (acap, &tmp_patt); 

} 


//*** 结束 添加 关键 字 
ac_automata finalize (acap); 


/As 设置 待 搜索 字符 串 
tmp_text.astring = input_ text; 
tmp_text.length = strlen(tmp_text.astring); 


1/*** 搜索 
ac_automata_search (acap, &tmp_text, 8, match_handler, NULL); 


//*** 释放 内 存 
ac_automata_release (acap); 
return 6; 


由 上 面 的 程序 可 以 看 出 ， 整 个 函数 库 都 是 围绕 AC_AUTOMATA ft 结构 体 进行 处 理 的 。 这 
是 C 语言 封装 数据 的 一 种 常用 方式 。 在 Cython 中 使 用 扩展 类 型 对 这 种 函数 库 进 行 包 装 时 ， 通 
常会 创建 一 个 指向 此 结构 体 的 指针 属性 ， 并 在 _cinit_0 和 _ dealoc_0 中 分 配 和 释放 此 结构 体 。 
然后 定义 一 些 def 方 法 ， 调 用 C 语 言 函数 库 提供 的 各 个 API 函数 以 实现 封装 。 
下 面 我 们 分 段 介绍 如 何 将 C 语 言 的 函数 库 使 用 扩展 类 型 进行 包装 。 


cdef extern from "ahocorasick.h": © 
ctypedef int (*AC MATCH _ CALBACK f)(AC MATCH t *, void *) 四 
ctypedef enum AC_STATUS t: © 
ACERR_SUCCESS = @ 
ACERR_DUPLICATE_PATTERN 
ACERR_LONG_PATTERN 
ACERR_ZERO_PATTERN 
ACERR_AUTOMATA_CLOSED 


ctypedef struct AC MATCH t: @ 
AC PATTERN t * patterns 
long position 
unsigned int match_num 


ctypedef struct AC AUTOMATA t: 


AC MATCH t match 


ctypedef struct AC PATTERN t: 


char * astring 
unsigned int length 


ctypedef struct AC TEXT t: 


char * astring 
unsigned int length 


AC AUTOMATA t * ac automata init() 

AC_STATUS t ac_automata add(AC AUTOMATA t * thiz, AC PATTERN t * pattern) 
void ac_automata finalize(AC AUTOMATA t * thiz) 

int ac_automata_search(AC_AUTOMATA t * thiz, AC TEXT t * text, int keep, 


AC_MATCH_CALBACK_f callback, void * param) 


void ac_automata settext (AC AUTOMATA t * thiz, AC TEXT tt * text, int keep) 
AC MATCH t * ac_ automata findnext (AC AUTOMATA t * thiz) 
void ac_automata_ release(AC AUTOMATA t * thiz) 


@ 首 
头 文件 。 
函数 原型 

@ 定 
数 为 指向 
中 通常 用 

e@0o 


字段 即 可 


先 需 要 通过 cdefextem from .告诉 Cython: 编译 之 后 的 C 语 言 程序 需要 包含 ahocorasickh 
由 于 Cython 不 会 自动 解析 C 语言 的 头 文件 ， 因 此 还 需要 将 其 中 用 到 的 类 型 、 常 量 和 
都 用 Cython 的 语法 声明 一 遍 。 

义 函数 指针 类 型 MATCH_CALBACK_f， 它 是 指向 回调 函数 的 指针 类 型 。 其 第 一 个 参 
保存 匹配 数据 的 结构 体 的 指针 ， 第 二 个 参数 是 可 以 指向 任何 额外 数据 的 指针 。C 语言 
这 种 void* 类 型 的 指针 传递 用 户 自 定义 的 数据 。 

定义 枚 举 类 型 和 结构 体 类 型 , 只 需要 定义 在 Cython 程序 中 用 到 的 枚 举 成 员 和 结构 体 的 
。 如 果 在 Cython 中 不 访问 某 结构 体 的 任何 字段 , 可 以 使 用 pass 关键 字 代替 字段 的 定义 。 


日 定义 Cython 程序 中 将 要 调用 的 函数 原型 。 
将 上 面 这 一 大 段 程序 编译 成 C 语 言 程序 之 后 ， 只 有 项 nclude "ahocorasickh" 一 句 ， 而 其 余 的 


类 型 声 
的 length 
Python 的 


则 告诉 Cython 如 何 编 译 对 这 些 类 型 进行 操作 的 语句 。 例 如 结构 体 AC_PATTERN_t 中 
字段 被 声明 为 unsigned int 类 型 ， 因 此 在 必要 的 时 候 Cython 会 调用 Python/C API 以 在 
整数 对 象 和 unsigned int 类 型 之 间 进 行 转换 。 


接 


cdef 


来 是 MultiSearch 扩展 类 型 的 定义 : 


class MultiSearch: 


cdef AC AUTOMATA t * auto © 
cdef bint found 
cdef object callback 
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cdef object exc_info 


def _cinit (self, keywords): 
self. auto = ac_automata init() 
if self. auto is NULL: 
raise MemoryError 
self.add(keywords) © 


def _ dealloc_ (self): 
if self. auto is not NULL: 
ac_automata_release(self._auto) 


cdef add(self, keywords): 
cdef AC PATTERN t pattern 
cdef bytes keyword 
cdef AC STATUS t err 


for keyword in keywords: © 
pattern.astring = <char *>keyword 
pattern. length = len(keyword) 
err = ac_automata_add(self._auto，&pattern) 
if err != ACERR_SUCCESS: 
raise ValueError("Error Code:%d" % err) 


ac_automata_finalize(self._auto) 


@ auto 属性 是 一 个 指向 AC_ AUTOMATAt 结构 体 的 指针 。 在 _cinit_0 中 调用 
ac_automata jini0 为 其 分 配 内 存 ， 而 在 _dealloc_0 中 调用 ac_automata_release0 以 释放 内 存 。 
@AC AUTOMATA ft 结构 体 分 配 成 功 之 后 , 调用 cdef 函数 add0 将 所 有 关键 字 添 加 进 该 结构 体 中 。 

目 在 add0 内 部 对 keywords 参数 进行 迭代 ， 将 其 每 个 元 素 都 当 作 bytes 类 型 处 理 ， 通 过 <char 
*> 将 其 转换 成 C 语言 的 字符 指针 类 型 ， 和 其 长 度 一 起 使 用 AC_PATTERN_t 结构 体 打 包 之 后 传 
递 给 ac_automata_add0。 由 于 在 该 函数 返回 之 后 ，ahocorasick 内 部 的 函数 不 会 再 使 用 字符 指针 指 
向 的 内 容 ， 因 此 这 种 做 法 是 安全 的 。 如 果 在 后 续 的 函数 调用 中 需要 使 用 字符 指针 指向 的 内 容 ， 
则 需要 对 keywords 中 的 每 个 字符 串 对 象 进行 引用 ， 保 证 它们 不 会 被 提前 垃圾 回收 。 
接 下 来 是 jsin0 方 法 的 定义 : 


def isin(self, bytes text, bint keep=False): 
cdef AC TEXT t temp text © 
temp_ text.astring = <char *>text 
temp_text.length = len(text) 
self.found = False © 
ac_automata_search(self._auto, &temp text, keep, isin callback, <void *>self) © 


return self.found 
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@ 将 目标 字符 串 用 AC_TEXT t 结构 体 打 包 之 后 ， 全 传递 给 ac_automata_search0 进 行 搜索 。 
在 搜索 之 前 ，@ 设 置 found 属性 为 False。 将 isin_callback0 函 数 的 地 址 传递 给 ac_automata_search0 
作为 搜索 的 回调 函数 。 其 最 后 一 个 参数 为 传递 给 回调 函数 的 用 户 数据 ,这 里 通过 它 将 MultiSearch 
对 象 的 地 址 传递 给 回调 函数 。 这 样 在 回调 函数 中 就 可 以 访问 MultiSearch 对 象 的 属性 了 。 

下 面 是 isin_callbackO0 回 调 函数 的 定义 ， 注 意 由 于 该 函数 在 C 语 言 库 内 部 被 调用 ， 只 能 使 
cdef 定义 : 


cdef int isin callback(AC MATCH t * match, void * param) : 
cdef MultiSearch ms = <MultiSearch> param © 
ms.found = True @ 
return 1 © 


isin_callback0 的 第 一 个 参数 是 描述 匹配 信息 的 结构 体 指针 ， 第 二 个 参数 为 指向 MultiSearch 
对 象 的 指针 。@ 首 先 将 void * 类 型 的 指针 转换 为 MultiSearch 对 象 ， 然 后 就 可 以 通过 ms 访问 
MultiSearch 扩展 类 中 定义 的 属性 和 各 种 方法 了 。@ 设 置 MultiSearch 对 象 的 found 属性 为 True， 
表示 找到 一 个 匹配 位 置 。@ 由 于 isin0 只 需要 找到 一 个 匹配 位 置 即 可 ， 因 此 函数 返回 1， 表 示 不 

下 面 定义 search0， 它 的 第 一 个 参数 为 搜索 的 目标 字符 串 ， 第 二 个 参数 是 Python 的 可 调用 
对 象 ， 每 找到 一 个 匹配 位 置 就 调用 该 对 象 进行 处 理 : 


为 了 介绍 C 语 言 回调 函数 和 Python 回调 函数 的 用 法 ， 这 里 使 用 ac_automata_search()， 
织 ”实际 上 使 用 后 面 介绍 的 ac_automata_findnext0 可 以 更 方便 地 编写 isin0 和 searchO 函 数 。 


def search(self, bytes text, callback, bint keep=False): 
cdef AC TEXT_t temp text 
temp_text.astring = <char *>text 
temp_text.length = len(text) 
self.found = False 
self.callback = callback © 
self.exc_info = None 
ac_automata_search(self._auto, &temp_ text, keep, search_callback, <void *>self) @ 
if self.exc_info is not None: 
raise self.exc_info[1], None, self.exc_info[2] © 


@ac_automata_search0 的 回调 函数 为 search_callback0。 为 了 在 其 中 调用 Python 的 可 调用 对 象 ， 
各 将 callback 参数 传递 给 self callback。 和 四 由 于 C 语 言 的 函数 无 法 向 上 传递 Python 函数 所 抛 出 的 
异常 信息 ， 因 此 还 需要 通过 exc _info 属性 传递 Python 回调 函数 中 可 能 抛 出 的 异常 。 
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下 面 是 search_callback0 回 调 函数 的 定义 : 


cdef int search_callback(AC_MATCH t * match, void * param) : 
cdef MultiSearch ms = <MultiSearch> param 
cdef bytes pattern = match.patterns.astring 
cdef int res =1 
try: 
res = ms.callback(match.position - len(pattern), pattern) © 
except Exception as ex: 
import sys 
ms.exc_info = sys.exc_info() © 
return res 


将 其 第 二 个 参数 转换 为 MultiSearch 对 象 之 后 ，@ 调 用 callback 指向 的 Python 回调 函数 ， 并 
捕捉 可 能 抛 出 的 异常 。@ 将 异常 及 回溯 信息 保存 在 属性 exc_info 中 。 在 search0 的 最 后 检查 属性 
exc_info， 若 被 设置 ， 则 抛 出 其 中 的 异常 对 象 。 这 里 使 用 sys.exc_info0 获 取 异 常 信息 ， 而 不 
是 直接 保存 捕获 的 异常 ， 这 样 才能 保证 异常 的 回溯 信息 能 正确 指示 出 错 的 位 置 。 

ahocorasick 库 中 还 提供 了 ac_automata_settext0 和 ac_automata_findnext0， 使 用 这 两 个 函数 可 
以 编写 如 下 生成 器 函数 iter_search0: 


def iter_search(self, bytes text, bint keep=False): 
cdef AC TEXT_t temp text 
cdef AC MATCH t * match 
cdef bytes matched_pattern 
temp_text.astring = <char *>text 
temp_text.length = len(text) 
ac_automata_settext(self._auto, &temp_text, keep) 
while True: 
match = ac_automata findnext(self._auto) 
if match == NULL: 
break 
matched_pattern = <bytes>match.patterns.astring 
yield match.position - len(matched_pattern), matched_pattern 


10.6 ”Cython 技巧 集 


A 与 本 节 内 容 对 应 的 Notebook 为 : 10-cython/cython-600-tipsipynb。 


相信 读者 通过 前 面 章节 的 介绍 ， 已 经 掌握 了 使 用 Cython 提高 Python 程序 运算 速度 的 一 些 
基本 方法 。 作 为 本 章 的 最 后 一 节 ， 让 我 们 看 看 Cython 的 一 些 高 级 使 用 技巧。 


10.6.1 创建 ufunc 函数 


NumPy 的 ufunc 函数 是 一 种 能 对 数组 的 每 个 元 素 进行 操作 的 函数 , 而 NumPy 的 C-API 提 供 
了 通过 C 语言 创建 ufunc 函数 的 方法 ， 请 感 兴趣 的 读者 访问 下 面 的 网 址 来 阅读 相关 的 教程: 


http://docs.scipy.org/doc/numpy-dev/user/c-info.ufunc-tutorial.html 
使 用 Numpy 的 C-API 编 写 ufunc 函数 的 教程 。 


由 于 Cython 最 终 被 翻译 成 C 语 言 程序 , 因此 我 们 可 以 使 用 Cython 程序 调用 NumPy 的 C-API 
来 创建 ufunc 函数 。 创 建 ufunc 函数 需要 三 个 全 局 变量 : 
e functions: 保存 对 一 维 数组 进行 循环 计算 的 函数 指针 ,如 果 ufunc 函数 支持 处 理 多 种 dtype 
数组 ， 则 每 种 dtype 对 应 一 个 函数 指针 。 
e signatures: 表示 ufunc 函数 的 参数 和 返回 值 的 字符 数组 。 
e data 空 指针 数组 ， 其 中 的 指针 指向 传递 给 functions 中 对 应 函数 的 额外 数据 。 
下 面 的 程序 创建 一 个 计算 Logistic 函数 的 ufunc 函数 logistic0: 


%%cython 

from libc.math cimport exp 

from numpy cimport (PyUFuncGenericFunction, npy_intp, import_ufunc, 
NPY_DOUBLE, PyUFunc_None, PyUFunc_FromFuncAndData) © 


import_ufunc() ©@ 


cdef void double logistic(char **args, npy_intp *dimensions, 
npy_intp* steps, void* data): 
cdef: 提 用 缩 进 可 以 定义 多 行 cdef 变量 
npy_intp i 
npy_intp n = dimensions[6] 
char *in_ptr = args[6] 
char *out_ptr = args[1] 
npy_intp in_step = steps[6] 
npy_intp out_step = steps[1] 


double x, y 
for i in range(n): 


x = (<double *>in_ptr)[6] 
y= 1.0/ (1.0 + exp(-x)) 
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(<double *>0ut ptr)[e] = y 


in_ptr += in_step 
out_ptr += out_step 


cdef: 
PyUFuncGenericFunction *functions = [&double logistic] © 
char *signatures = [NPY_DOUBLE, NPY_DOUBLE] @ 
void **data = [NULL] © 


logisticl = PyUFunc_FromFuncAndData(functions, data, signatures, © 

1, #ntypes 

1, #nin 

1, #nout 

PyUFunc_None, #identity 

"logistic", #name 

"a sigmoid function: y = 1 / (1 + exp(-x))", #doc string 
@) # unused 


@Cython 包含 了 Numpy 的 C-API 的 声明 文件 ， 首 先 通过 cimport 从 其 中 载 入 将 要 用 到 的 函 
数 和 类 型 声明 。@ 在 调用 NumPy 的 任何 ufunc 相关 的 C-API 函数 之 前 ， 需 要 首先 调用 
import_ufunc0)， 耕 则 程序 会 异常 终止 。 
我 们 所 创建 的 logistic0 函 数 只 对 元 素 类 型 为 double 的 数组 进行 计算 ，@ 因 此 functions 中 只 
保存 对 一 维 double 数组 进行 计算 的 double logistic0 函 数 的 地 址 。 
PyUFuncGenericFunction 为 double_logistic0 的 函数 指针 类 型 ， 参 数 的 含义 如 下 : 
e@ args: 保存 所 有 输入 输出 数组 的 地 址 ，args[0] 为 输入 数组 的 地 址 ，args[]] 是 输出 数组 的 
地 址 。 
e@ dimensions: 保存 循环 的 次 数 。 
@ steps: 保存 各 个 数组 的 元 素 之 间 的 间隔 ，steps[0] 为 输入 数组 的 元 素 间隔 ，steps[]] 为 输出 
数组 的 元 素 间 隔 。 
。 data: 传递 给 该 函数 的 额外 参数 ， 在 C 语 言 中 ， 为 了 表示 任意 类 型 的 额外 参数 ， 通 常 使 
用 void * 类 型 的 指针 。 
由 上 面 的 参数 可 知 , PyUFuncGenericFunction 类 型 的 函数 可 以 处 理 各 种 元 素 类 型 的 数组 ,而 
数组 元 素 无 须 连续 存储 ， 可 以 处 理 使 用 切片 获得 的 数组 视图 ， 并 且 输 入 数组 的 个 数 和 输出 数组 
的 个 数 是 任意 的 。 
@signatures 中 保存 表示 ufunc 函数 的 输入 和 输出 数组 的 元 素 类 型 ， 本 例 中 输入 和 输出 都 是 
双 精 度 浮 点 数 ， 因 此 值 为 INPY_DOUBLE,NPY_DOUBLE]。 注意 这 里 使 用 的 是 Cython 中 初始 化 
数组 的 语法 。 它 相当 于 : 


cdef char signatures[2] 


signatures[8] = NPY_DOUBLE 
signatures[1] = NPY_DOUBLE 


@double_logistic0 无 须 额外 的 参数 ， 因 此 data 被 初始 化 为 一 个 指向 NULL 的 空 指针 。 
@ 最 后 调用 PyUFunc_FromFuncAndData0 创 建 ufunc 函 数 对 象 , 它 的 头 三 个 参数 为 functions、 
data、signatures， 接 下 来 的 参数 为 : 

e@ ntypes: 该 ufunc 函数 支持 的 数据 类 型 的 个 数 ， 即 functions 数组 的 长 度 。 由 于 本 例 中 上 
支持 双 精 度 浮 点 数 ， 因 此 值 为 1。 

e nin: ufunc 函数 的 输入 数组 的 个 数 。 

e nout: ufunc 函数 的 输出 数组 的 个 数 。 

e@ identity: 可 选 值 为 PyUFunc_One、PyUFunc_Zero、PyUFunc_None。 该 参数 指定 ufunc 函 
数 的 reduce0 方 法 的 参数 为 空 数组 时 的 返回 值 。 由 于 本 例 中 的 ufunc 函数 为 单 输入 函数 ， 
因此 reduce0 方 法 无 效 。 

e@ name 和 doc_string: 分 别 指定 ufunc 函数 名 和 帮助 文档 。 

如 果 希 望 10gistic0 能 够 处 理 单 精度 浮 点 数 , 可 以 添加 进行 单 精度 浮 点 数 运算 的 float_logistic0 

函数 。 只 需 将 double_logistic0 中 的 所 有 double 都 替换 为 oat 即 可 。 

然后 如 下 定义 functions、signatures、data 参数 : 


避 


7 


cdef: 
PyUFuncGenericFunction *functions = [&double logistic, &float logistic] 
char *signatures = [NPY_DOUBLE, NPY_DOUBLE, NPY_FLOAT, NPY_FLOAT] 
void **data = [NULL, NULL] 


最 后 将 PyUFunc_FromFuncAndData0 的 ntypes 参数 设置 为 2。 

下 面 测试 logistic10 函 数 。 虽然 只 定义 了 一 个 double 类 型 的 计算 函数 ,但 是 它 仍然 可 以 处 理 
各 种 类 型 的 数组 ， 甚 至 列表 ， 这 是 因为 在 ufunc 函数 内 部 会 将 参数 转换 成 double 数组 ， 然 后 再 
传递 给 double_logistic0 进 行 计算 。 如 果 参 数 是 多 维 数组 ，ufunc 函数 会 对 每 个 轴 进 行 循环 ， 多 次 
调用 double_logistic0 实 现 对 整个 数组 的 计算 。 


logistici([-1, 86, 1]) 
array([ 6.26894142， 6.5 ， 6.73165858]) 


上 面 的 double_logistic0 虽 然 不 难 编写 ， 但 是 对 每 个 数学 函数 都 进行 类 似 的 包装 却 是 令 人 厌 
烦 的 重复 劳动 。 幸 好 可 以 利用 NumPy 提供 的 一 些 辅 助 函 数 将 单个 数值 的 运算 函数 转换 成 ufunc 
函数 。 在 下 面 的 例子 中 ，@scalar_logistic0 是 一 个 输入 和 输出 都 为 double 的 单数 值 运算 函数 。@ 
我 们 将 该 函数 通过 额外 参数 data 传递 给 NumPy 提供 的 PyUFunc_d_d0 函 数 。 

@PyUFunc_d_d0 对 作为 输入 和 输出 的 两 个 一 维 double 数组 进行 循环 , 将 输入 数组 中 的 每 个 
元 素 传 给 data 指向 的 函数 进行 计算 ， 并 将 结果 写 入 输出 数组 中 。 


%%cython 
from libc.math cimport exp 
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from numpy cimport (PyUFuncGenericFunction, import ufunc, PyUFunc d d， 
NPY_DOUBLE, PyUFunc_None, PyUFunc_FromFuncAndData) 


import_ufunc() 


cdef double scalar logistic(double x): © 
return 1.6 / (1.8 + exp(-x)) 


cdef: 
PyUFuncGenericFunction *functions = [PyUFunc d d] @ 
char *signatures = [NPY_DOUBLE, NPY_DOUBLE] 
void **data = [&scalar logistic] © 


logistic2 = PyUFunc_FromFuncAndData(functions, data, signatures, 
1, 1, 1, PyUFunc_None, 
opistic” 
"a sigmoid function: y = 1 / (1 + exp(-x))", 
9) 


logistic20 与 logistic10 的 差别 仅仅 是 多 了 一 次 C 语 言 的 函数 调用 。 下 面 测试 该 调用 所 带 来 的 
损耗 ， 从 结果 可 以 看 出 二 者 的 差距 并 不 大 ， 而 logistic20 的 实现 更 加 简洁 、 更 容易 维护 ; 


x = np.linspace(-6，6，16666) 

%timeit logistic1(x) 

%timeit logistic2(x) 

16666 loops, best of 3: 261 hs per loop 
1666 loops，best of 3: 268 hs per loop 


实际 上 ,已 经 有 人 将 NumPy 的 C-API 中 与 PyUFunc_d_d0 类 似 的 函数 包装 在 Cython 的 include 
文件 中 。include 文件 通过 include 关键 字 载 入 ， 它 和 CC 语言 的 ##nclude 预 处 理 命令 类 似 ， 将 指定 
文件 的 内 容 插入 目标 文件 中 。 在 numpy_ufuncs.pxi 中 使 用 了 前 面 介绍 的 方法 来 创建 ufunc 函数 ， 
请 感 兴趣 的 读者 自行 阅读 源 代码 。 

在 numpy_ufuncs.pxi 中 提供 了 与 functions、signatures、data 类 似 的 三 个 数组 ， 它 们 可 以 容纳 
100 个 PyUFuncGenericFunction 函数 ,在 下 面 的 例子 中 ,通过 register_ufunc_dO 和 register_ufunc_dd0 
分 别 将 一 元 函数 scalar_logistic0 和 二 元 函数 scalar_peaks0 转 换 成 ufunc 函数 : 

Xipcython 


include “numpy_ufuncs.pxi” 
from libc.math cimport exp 


cdef double scalar logistic(double x): 
return 1.6 / (1.6 + exp(-x)) 


cdef double scalar_peaks(double x, double y) : 
return x * exp(-x*x - y*y) 


logistic3 = register ufunc d(scalar logistic, 
"logistic", "logistic function", PyUFunc_None) 


peaks = register ufunc dd(scalar_peaks, 
"peaks", "peaks function", PyUFunc_None) 


下 面 通过 ogrid 创建 两 个 可 广播 成 二 维 网 格 的 数组 X 和 Y， 然 后 调用 peaks0 计 算 网 格 上 所 
有 点 对 应 的 函数 值 : 
Y, X = np.ogrid[-2:2:166j，-2:2:166j] 
pl.pcolormesh(X, Y, peaks(X, Y)) 


10.6.2 ”快速 调用 DLL 中 的 函数 


通过 Python 的 标准 库 ctypes 可 以 很 方便 地 调用 动态 链接 库 中 的 函数 。 但 是 由 于 ctypes 在 调 
用 实际 的 函数 之 前 需要 进行 许多 预 处 理工 作 ， 因 此 函数 的 调用 效率 并 不 高 。 如 果 需 要 在 循环 中 
- 量 调用 ， 这 种 预 处 理 带 来 的 损耗 会 极 大 地 影响 程序 的 执行 速度 。 本 节 介绍 如 何 通过 ctypes 找 
到 动态 链接 库 中 的 函数 的 地 址 , 然后 将 地 址 传递 给 Cython 的 函数 进行 循环 调用 , 提高 函数 的 调 
用 效率 。 
首先 用 C 语 言 编写 函数 peaks0, 为 了 确认 是 否 能 正确 获取 该 函数 的 地 址 ,我们 通过 get_addr0 
返回 peaks0 的 地 址 : 


%%file peaks.c 
#include <math.h> 
double peaks(double x, double y) 


{ 
return x * exp(-x*x - y*y); 
} 
unsigned int get_addr() 
{ 
return (unsigned int)(void *)peaks; 
J 


接 下 来 调用 gcc 将 peaks.c 编译 成 peaks.dll: 


!gcc -Ofast -shared -o peaks.dll peaks.c 


然后 通过 ctypes 载 入 peaks.dll， 并 为 其 中 的 peaks0 函 数 声明 参数 类 型 和 返回 值 类 型 ， 最 后 
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调用 该 函数 : 


import ctypes 

lib = ctypes.CDLL("peaks.d11") 

lib.peaks.argtypes = [ctypes.c_double, ctypes.c_double] 
lib.peaks.restype = ctypes.c_double 

lib.peaks(1.06, 2.0) 

808.806737946999885465 


lib.peaks 是 ctypes 对 C 语 言 的 函数 地 址 进行 包装 之 后 的 对 象 ， 为 了 获取 其 中 的 C 语 言 函 数 
地 址 ， 可 以 将 该 对 象 通过 cast0 转 换 成 空 指针 类 型 ， 然 后 通过 空 指针 对 象 的 value 属性 获得 该 指 
针 的 内 容 ， 即 C 语 言 函 数 的 地 址 。 下 面 的 程序 获得 C 语言 函数 的 地 址 ， 并 与 get_addr0 的 返回 
值 进行 比较 : 


addr = ctypes.cast(lib.peaks, ctypes.c_void p).value 
addr == lib.get_addr() 
True 
下 面 用 Cython 编写 vectorize_2d0 函 数 ， 其 func 参数 是 ctypes 的 函数 指针 对 象 ，x 和 y 是 两 
个 二 维 的 连续 存储 的 数组 。 
@ 首 先 通过 ctypedef 关键 字 声 明 二 元 双 精 度 浮 点 数 函数 指针 3 
中 首先 通过 cast0 获 得 函数 的 地 址 ， 然 后 @ 将 该 地 址 转换 成 Function 类 型 的 函数 指针 ， 接 下 来 就 
可 以 在 双重 循环 中 通过 该 函数 指针 快速 调用 其 指向 的 C 语 言 函数 了 。 


型 Function。@ 在 vectorize_2d0 


%%cython 

import cython 

import numpy as np 

from ctypes import cast, c void p 


ctypedef double(*Function)(double x, double y) 0 


@cython.wraparound(False) 
@cython.boundscheck(False) 
def vectorize 2d(func, double[:, ::1] x, double[:, ::1] y): 
cdef double[:, ::1] res = np.zeros_like(x.base) 
cdef size t addr = cast(func，c_void p).value © 
cdef Function func_ptr = <Function><void *>addr © 


cdef int i, j 
for i in range(x.shape[6]): 
for j in range(x.shape[1]): 
res[i, j] = func ptr(x[i, j], y[i, j]) 


return res.base 


下 面 通过 vectorize_ 2d0 调 用 lib.peaks0， 并 与 通过 vectorize0 创 建 的 ufunc 函数 的 结果 比较 


Y, X= np.mgrid[-2:2:266j，-2:2:266j] 
vectorize peaks = np.vectorize(lib.peaks, otypes=['f8']) 
np.allclose(vectorize peaks(X, Y), vectorize 2d(lib.peaks, X, Y)) 


True 


vectorize_2d0 只 能 对 两 个 连续 存储 的 二 维 数组 进行 循环 , 如 果 希 望 像 ufunc 函数 一 样 对 任意 
数组 进行 计算 ， 可 以 使 用 扩展 类 型 对 numpy_ufuncspxi 中 的 函数 进行 简单 包装 。 

@UFunc dd 扩展 类 只 有 一 个 ufunc 属性 , 用 来 保存 创建 的 ufunc 函数 对 象 。@ 在 其 _cinit_ 
方法 中 创建 一 个 调用 其 参数 func 的 ufunc 函数 对 象 。 使 用 set_func0 方 法 可 以 修改 ufunc ep 
额外 参数 。@ 将 ufunc 属性 转换 为 C 语言 的 ufunc 结构 体 ， 该 结构 体 的 定义 可 通过 from numpy 
cimport ufunc 载 入 ， 该 载 入 操作 已 经 在 numpy_ufuncs.pxi 定义 。@ 然 后 将 传 入 的 函数 地 址 写 入 
ufunc 结构 体 的 data 字段 所 指向 的 数组 中 。 由 于 register_ufunc_dd0 创 建 的 ufunc 函数 包含 两 个 
PyUFuncGenericFunction 函数 指针 ， 因 此 需要 同时 修改 这 两 个 函数 的 额外 参数 。 


%%cython 
include "numpy_ufuncs.pxi" 
from ctypes import cast, c void p 


cdef class UFunc_dd: 
cdef public object ufunc © 


def _cinit_(self, func): © 

cdef size t addr = cast(func, c_void p).value 

self.ufunc = register_ufunc_dd(<double (*)(double, double)>addr, 

"ufunc", "variable ufunc", PyUFunc_None) 

def set_ func(self, func): 

cdef ufunc f = <ufunc> self.ufunc © 

cdef size t addr = cast(func, c_void p).value 

f.data[6] = <void *>addr @ 

f.data[1] = “void *>addr 


下 面 先 让 所 创建 的 ufunc 函数 使 用 lib.peaks0 进 行 计算 ， 然 后 通过 set_func0 将 其 指向 的 运算 
函数 修改 为 ctypes.cdlLmsvcrtatan2， 即 C 语言 的 mathh 中 定义 的 atan20 函 数 。 使 用 这 种 方法 ， 
可 以 将 任何 动态 链接 库 中 的 类 型 为 double(double, double) 的 函数 通过 set_func0 传 递 给 ufunc_dd 对 
象 ， 使 其 与 NumPy 内 署 的 ufunc 函数 一 样 能 对 数组 进行 广播 运算 。 

ufunc_dd = UFunc_dd(lib.peaks) 


Y, X = np.ogrid[-2:2:266j，-2:2:266j] 
assert np.allclose(vectorize peaks(X, Y), ufunc_ dd.ufunc(X, Y)) 
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ufunc_dd.set func(ctypes.cdll.msvcrt.atan2) 
assert np.allclose(np.arctan2(X, Y), ufunc_ dd.ufunc(X, Y)) 


10.6.3 调用 BLAS 函数 


BLAS 是 一 套 基 础 线性 代数 程序 集 的 API 标 准 , SciPy 的 许多 高 速 线性 代数 运算 函数 内 部 都 
会 调用 用 Fortran 语言 编写 的 BLAS 函数 。 虽 然 这 些 Fortran 函数 的 运算 效率 很 高 ， 但 Python 的 
调用 接口 会 造成 一 定 的 效率 损耗 ， 在 大 量 循环 中 调用 时 这 种 损耗 不 能 忽略 不 计 。 可 以 使 用 
Cython 循环 调用 这 些 函数 ， 从 而 彻底 摆脱 Python 调用 接口 的 束缚 。 

1. 包装 saxpy() 函 数 

BLAS 中 的 API 函数 可 以 通过 scipyjlinalg.blas 模块 访问 ， 下 面 演示 调用 其 中 的 saxpy0: 


from scipy.linalg import blas 

import numpy as np 

x = np.array([1, 2, 3], np.float32) 

y = np.array([1, 3, 5], np.float32) 
blas.saxpy(x, y, a=0.5) 

array([ 1.5, 4. ， 6.5], dtype=float32) 


saxpy 是 一 个 <fortran object>， 其 代码 可 以 在 fortranobjecth 和 fortranobjectc 中 找到 。 这 两 个 
文件 可 以 在 NumPy 的 安装 目录 下 找到 ， 位 于 numpy\f2py\sre 文件 夹 下 。 


blas.saxpy 
<fortran object> 


其 _cpointer 属性 为 包装 fortran 函数 地 址 的 PyCObject 对象。 要 获得 PyCObject 包装 的 指针 ， 
可 以 调用 Python 的 C-API 中 的 PyCObject_AsVoidPtr: 


void* PyCObject_AsVoidptr(PyObject* self) 


下 面 的 程序 通过 ctypes 调用 Python 的 C-API 函数 ， 首 先 通过 py_object0 将 Python 对 象 转 和. 
成 指向 PyObject 结构 体 的 指针 , 然后 调用 PyCObject_AsVoidPtr0 获 得 该 PyCObject 对 象 所 包装 
地 址 ，saxpy_addr 就 是 BLAS 扩展 库 中 Fortran 函数 saxpy0 的 地 址 : 


import ctypes 

saxpy_addr = ctypes.pythonapi.PyCObject_AsVoidptr( 
ctypes.py_object(blas.saxpy._cpointer)) 

saxpy_addr 

196931682 


获得 函数 的 地 址 之 后 ,还 需要 知道 函数 的 调用 原型 。 通过 下 面 的 网 址 查看 saxpy0 的 帮助 文 
档 ， 可 知 其 调用 参数 如 下 : 


subroutine saxpy( 


integer NN, 

real SA， 

real, dimension(*) SX, 

integer INCX, 

real, dimension(*) Sy, | 
integer INCY 


© http://www.netlib.org/lapack/explore-html/d8/daf/saxpy_8f.html 
BLAS 库 中 saxpy0 的 函数 原型 。 


注意 Fortran 语言 采用 传 址 调用 , 即 调用 函数 时 传递 的 参数 和 函数 中 接收 的 参数 是 相同 的 内 
存 地 址 。 因 此 其 C 语 言 的 函数 原型 为 : 

void saxpy(int *N, float *SA, float *SX, int *INCX, float *SY, int *INCY); 

在 Cython 程序 中 声明 指向 saxpy0 的 函数 指针 类 型 saxpy_ptr， 并 通过 前 面 介 绍 的 方法 获得 
Fortran 函数 的 地 址 ， 并 转换 为 函数 指针 _saxpy。 然 后 定义 调用 _saxpy 的 blas_saxpy0 和 直接 在 
Cython 中 循环 的 cython_saxpy0: 
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%%cython 

import cython 

from cpython cimport PyCObject_AsVoidptr 
from scipy.linalg import blas 


ctypedef void (*saxpy_ptr) (const int *N, const float *alpha, 
const float *X, const int *incX, float *Y, const int *incY) nogil 
cdef saxpy_ptr _saxpy=<saxpy_ptr>PyCObJject_AsVoidPtr(blas.saxpy._ cpointer) 


def blas_saxpy(float[:] y，float a，float[:] x): 
cdef int n = y.shape[6] 
cdef ;int inc x = x.strides[6] / sizeof(float) 
cdef int inc_y = y.strides[6] / sizeof(float) 
_Ssaxpy(&n，&a，&x[6]，&inc_x，&y[8]，&inc_y) 


@cython.wraparound(False) 
@cython.boundscheck(False) 
def cython_saxpy(float[:] y, float a, float[:] x): 
cdef int i 
for i jin range(y.shape[6]): 
y[i] += a * x[i] 
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下 面 比较 二 者 的 运行 速度 ，blas_saxpy0 要 比 Cython 的 循环 快 三 倍 左右 : 


a = np.arange(166666，dtype=np.float32) 
b = np.zeros_like(a) 

%timeit blas_saxpy(b, 8.2, a) 

%timeit cython_saxpy(b, 8.2, a) 

16666 loops, best of 3: 28.6 hs per loop 
16666 loops, best of 3: 98.3 hs per loop 


2. dgemm() 高 速 和 矩阵 乘积 


http://www.netlib.org/lapack/explore-html/d7/d2b/dgemm,_ 8f.html 
DGEMM 的 说 明文 档 。 


BLAS 中 的 DGEMM0 实 现 如 下 矩阵 乘积 运算 ， 当 参数 alpha 为 1、beta 为 0 时 ， 结 果 C 为 
和 矩阵 A 和 B 的 乘积 : 


C = alpha*op(A)*op(B) + beta*C 


其 中 的 op0 可 以 对 和 矩阵 进行 转 置 。 由 于 Fortran 数组 与 C 语 言 数 组 的 轴 的 顺序 相反 , 为 了 对 
两 个 C 语 言 的 数组 表示 的 矩阵 进行 乘积 运算 ， 需 要 设置 op0 为 转 置 。 而 无 论 是 否 转 置 ， 运 算 结 
果 C 都 是 Fortran 格式 的 数组 。 

Fortran 函数 的 dgemm0 的 参数 如 下 : 

subroutine dgemm ( 


character TRANSA, 
character TRANSB, 


integer M, 
integer N, 
integer [全 


double precision ALPHA, 

double precision, dimension(lda,*) A, 
integer LDA, 

double precision, dimension(ldb,*) B, 
integer LDB, 

double precision BETA, 

double precision, dimension(ldc,*) C, 
integer LDC 


下 面 为 其 C 语 言 的 调用 函数 原型 : 


void dgemm( char *ta, char *tb, 
int *m, int *n, int *k, 


double *alpha, 
double *a, int *lda, 
double *b, int *ldb, 
double *beta, 
double *c, int *ldc) 


在 下 面 的 Cython 函数 dgemm(A,B,index) 中 ,A 和 B 为 两 个 C 语 言 格式 的 三 维 数组 ， 形 状 分 
别 为 La M, KR 和 (Lb, K, N)。index 是 一 个 形状 为 (Lc, 2) 的 整 型 数组 。 该 函数 对 index 中 的 每 对 整 
数 j、k 计 算 C 加 =A 四 *B[kJ], 其 中 i 为 该 对 整数 的 下 标 。 因此 函数 的 返回 值 C 是 形状 为 (Lc,N,M) 
的 三 维 数组 。 可 以 将 C 看 作 Le 个 Fortran 格 式 的 二 维 数组 。 
由 于 存 取 内 存 视 图 的 元 素 时 不 涉及 任何 与 Python 有 关 的 操作 , 而 每 对 矩阵 的 乘积 运算 相对 
独立 ， 因 此 可 以 对 这 部 分 进行 并 行 运算 。Cython 使 用 OpenMP 实现 并 行 运算 ， 因 此 在 编译 时 需 
要 设置 编译 和 连接 参数 -fopenmp。 

@ 载 入 并 行 运算 的 prange0 函 数 ， 该 函数 会 被 编译 成 使 用 并 行 运算 的 循环 。@ 设 置 其 nogil 
参数 为 True， 表示 在 并 行 运 算 时 释放 Python 的 全 局 锁 。 


X%%cython -c-Ofast -c-fopenmp --link-args=-fopenmp 


from cython.parallel import prange © 
import cython 

import numpy as np 

from cpython cimport PyCObject_ AsVoidptr 
from scipy.linalg import blas 


ctypedef void (*dgemm ptr) (char *ta, char *tb, 
int *m;, int *n, int *k, 
double *alpha, 
double *a, int *lda, 
double *b, int *ldb， 
double *beta, 
double *c, int *ldc) nogil 


cdef dgemm ptr _dgemm=<dgemm_ ptr>PyCObject_AsVoidptr(blas.dgemm._cpointer) 


@cython.wraparound(False) 
@cython.boundscheck(False) 
def dgemm(double[:, :, :] A, double[:, :, :] B, int[:, ::1] index): 
cdef int m, n, k, i, length, idx a, idx b 
cdef double[:, :, :] C 
cdef char ta, tb 
cdef double alpha = 1.6 
cdef double beta = 6.6 
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length = index.shape[6] 
m, k, n = A.shape[1], A.shape[2], B.shape[2] 


C = np.zeros((length, n, m)) 


ta = "T" 
tb=ta 


for i in prange(length, nogil=True): © 

idx a = index[i, 8] 
idx b = index[i, 1] 
_dgemm(&ta, &tb, &m, &n, &k, &alpha, 

&A[idx_a, 6, 0], &k, 

8&B[idx_b, 80, 0], &n, 

&beta, 

&C[i, 8, 8], 8&m) 


return C.base 


NumPy 中 新 增加 的 gufunc 函数 能 把 单个 矩阵 的 运算 通过 广播 运用 到 整个 数组 之 上 。 虽 然 
numpy.linalg 中 提供 了 许多 gufunc 函数 ， 但 是 缺少 矩阵 乘积 的 gufunc 函数 。 类 似 的 功能 可 以 利 
用 上 面 的 dgemm0 来 实现 。 下面 的 matrix_multiply(a,b) 对 两 个 任意 维 数 的 数组 的 最 后 两 个 轴 进 行 
矩阵 乘积 运算 ， 而 对 其 他 轴 进 行 广播 运算 。 例 如 , 若 a 的 形状 为 (12, 1, 10, 100,30), b 的 形状 为 (1， 
15, 1, 30, 50)， 最 后 两 轴 对 应 的 矩阵 乘积 之 后 的 形状 为 (100, 50)， 而 其 他 轴 广 播 之 后 的 形状 为 (12, 
15, 10)， 因 此 结果 数组 的 形状 为 (12, 15, 10, 100, 50)。 一 共 进 行 了 12X15X10 次 矩阵 乘积 运算 。 

该 程序 的 实现 思路 如 下 ， 请 读者 自行 研究 ， 细 节 部 分 就 不 详细 叙述 了 : 

e 对 a 中 的 每 个 矩阵 编号 ， 并 把 编号 的 形状 修改 为 a 的 广播 部 分 的 形状 ， 得 到 idx_a。 

e 对 b 进 行 同样 的 运算 ， 得 到 idx_b。 

e@ 使 用 broadcast_arrays0 计 算 idx_a 和 idx_b 广 播 之 后 的 数组 。 

e 将 上 述 两 个 数组 平坦 化 之 后 排 成 两 列 ， 就 得 到 了 dgemm0 函 数 的 index 参数 。 

e 将 a 和 b 的 形状 都 修改 为 三 维 数组 并 传递 给 dgemm0 函 数 。 
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def matrix_multiply(a, b): 
if a.ndim <= 2 and b.ndim <= 2: 
return np.dot(a, b) 


a = np.ascontiguousarray(a).astype(np.float, copy=False) 
b = np.ascontiguousarray(b).astype(np.float, copy=False) 
if a.ndim == 

a = a[None, :, :] 
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if b.ndim == 
b= b[None, :, :] 


a.shape[:-2] 
b.shape[:-2] 


len a = np.prod(shape_a) 


shape_a 


shape_b 
len_b = np.prod(shape_b) 

idx a = np.arange(len_a，dtype=np.int32).reshape(shape_a) 
idx_b = np.arange(len_b，dtype=np.int32).reshape(shape_b) 


idx a, idx b = np.broadcast arrays(idx a, idx_b) 


index = np.column_stack((idx a.ravel(), idx_b.ravel())) 


bshape = idx_a.shape 


0 

if a.ndim > 3: 3 
a = a.reshape(-1, a.shape[-2], a.shape[-1]) 又 

if b.ndim > 3: 译 
b = b.reshape(-1, b.shape[-2], b.shape[-1]) 忆 

引 

if a.shape[-1] != b.shape[-2]: 本 


raise ValueError("can't do matrix multiply because k isn't the same") 


< 


dgemm(a, b, index) 

c = np.swapaxes(c, -2, -1) 
c.shape = bshape + c.shape[-2:] 
return c 


NumPy 的 umath_tests 模块 中 提供 了 一 个 测试 用 的 计算 矩阵 乘积 的 gufunc 函数 。 下 面 与 该 函 
数 比较 ， 可 以 看 出 运算 结果 是 一 致 的 : 

import numpy.core.umath_tests as umath 

a = np.random.rand(12, 1，196，166，36) 


b = np.random.rand( 1, 15, 1, 36，56) 
np.allclose(matrix_multiply(a，b)，umath.matrix_multiply(a，b)) 


True 


下 面 是 二 者 的 运算 速度 比较 , 如 果 读者 查看 CPU 的 使 用 率 , 就 会 发 现 运行 matrix_multiply0 
时 , 所 有 CPU 都 会 用 于 计算 矩阵 乘积 。 由 于 采用 了 并 行 运算 与 高 速 的 BLAS 函数 ， 因 此 二 者 的 
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运算 速度 相差 近 6 倍 。 


%timeit matrix multiply(a, b) 

%timeit umath.matrix multiply(a, b) 
16 loops, best of 3: 47.8 ms per loop 
1 loops, best of 3: 313 ms per loop 


作为 本 书 的 最 后 一 章 , 让 我 们 综合 前 面 章 节 介绍 的 各 个 扩展 库 , 编写 一 些 有 趣 的 实际 程序 。 


11.1 使 用 泊 松 混合 合成 图 像 


会 与 本 节 内 容 对 应 的 Notebook 为 : 11-examples/examples-100-possion.ipynb。 


本 节 通 过 一 个 图 像 处 理 的 实例 程序 复习 NumPy 数组 、OpenCV 以 及 Scipy 中 的 稀 政 从 阵 的 
用 法 。 泊 松 混合 是 一 种 图 像 合成 算法 。 它 将 源 图 像 中 指定 区 域内 的 纹理 信息 复制 到 目标 图 像 的 
对 应 区 域内 。 效 果 如 图 11-1 所 示 ， 从 左 侧 开始 依次 为: 源 图 像 、 混 合 区 域 、 目 标 图 像 以 及 泊 松 
混合 的 结果 。 


轩 跨 国 团 国 国 因 | 国 本 本 本 本 国 国 | 因 因 因 因 国 国 国 | 因 因 因 四国 加 国 
加 六 国 因 国 因 因 国 国 | 国 四 国 国 
ee 加固 轿 


国 


[9 上 6| 
国 回回 加 加 加 加 LT LDLsslzelsalzslsslszPoylsslzolszjzalss|szoy 
图 11-1 泊 松 混合 示意 图 


11.1.1 ” 泊 松 混合 算法 


纹理 信息 通过 拉 普 拉 斯 算 子 计算 ， 可 以 直接 通过 OpenCYV 中 的 Laplacian0 来 计算 。 对 于 
3 x 3 的 情况 ，Laplacian0 实 际 上 就 是 使 用 如 下 卷 积 核 与 图 像 进行 卷 积 运算 : 


@ PP @ 
1 
PP 
@ PP @ 


即 图像 中 每 个 像素 值 乘 以 4 后 加 上 其 上 下 左右 4 个 像素 的 值 。 
所 谓 泊 松 混合 ,就 是 指 对 于 指定 的 区 域 , 让 目标 图 像 的 Laplacian 运算 结果 与 源 图 像 的 运算 
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结果 相同 。 图 11-1 显示 了 泊 松 混合 运算 过 程 。 从 左 侧 开始 分 别 为 : 
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。 源 图 像 ， 其 中 指定 的 区 域 采用 浅 灰 色 表示 。 

。 对 源 图 像 进行 拉 普 拉 斯 运算 的 结果 ， 这 里 只 显示 指定 区 域内 的 值 。 

e 目标 图 像 ， 其 中 用 “?” 表 示 未 知 值 。 这 些 未 知 值 要 保证 对 于 指定 的 区 域内 ， 目 标 图 像 
为 拉 普 拉 斯 运算 结果 与 源 图 像 相 同 。 
e 对 目标 图 像 中 的 未 知 值 进 行 编号 ， 以 便 生 成 方程 组 。 

如 果 用 未 知 数 x0 到 x8 表示 图 11-1( 左 3) 中 的 9 个 未 知 的 像素 点 , 那么 它们 的 值 需要 满足 如 


下 方程 组 : 


-4*x@ + 85 + 77 + X1 + X3 = -7 
-4*x1 + 79 + X9 + X2 + x4 = -32 


-4*Xx8 + 86 + 96 + x5 + X7 = 14 


每 个 方程 的 右边 的 值 就 是 每 个 未 知 像素 对 应 的 源 图 像 的 拉 普 拉 斯 运算 值 , 而 方程 左边 则 是 


通过 拉 普 拉 斯 卷 积 核 展开 的 公式 。 每 个 未 知 像素 的 上 下 左右 4 个 相 邻 的 像素 可 能 是 已 知 的 值 或 
未 知 的 像素 。 


久 


因此 计算 泊 松 混合 最 终 是 求解 这 样 一 个 方程 组 。 我 们 知道 numpy.linalg.solve0 可 以 用 来 解 线 


方程 组 ， 但 是 由 于 未 知 数 的 个 数 就 是 区 域 中 像素 的 个 数 ， 因 此 通常 泊 松 混合 所 涉及 的 未 知 数 


非常 多 的 。 例 如 ， 对 于 一 个 100X 100 的 区 域 进行 混合 ， 需 要 创建 一 个 10000X 10000 的 系数 


正隆 A。 


显然 需要 采用 SciPy 的 稀 玻 窃 阵 运算 相关 函数 : scipy.sparseJlinalg.spsolve0。 剩 下 的 问题 就 是 
何 创建 spsolve0 所 需 的 两 个 系数 矩阵 A 和 b。 
从 上 面 的 例子 可 以 看 出 ， 所 有 的 方程 都 是 一 种 形式 ， 但 是 根据 邻接 像素 是 已 知 像素 还 是 未 


1] 像素， 实际 的 方程 是 不 同 的 。 这 样 我 们 需要 对 每 个 未 知 像素 的 邻接 像素 进行 判断 ， 从 而 增加 
了 创建 矩阵 A 的 难度 。 既 然 使 用 稀疏 矩阵 求解 方程 组 , 因此 不 在 乎 再 多 一 些 未 知 数 。 如 图 11-1( 右 ) 


所 示 ， 我 们 将 指定 的 区 域 使 用 膨胀 运算 扩展 一 图像 素 。 图 中 浅 灰色 是 原始 的 混合 区 域 ， 深 灰色 
为 浅 灰 色 区 域 膨胀 后 增加 的 区 域 。 我 们 把 灰色 区 域内 的 所 有 像素 都 当 作 未 知 数 ， 其 中 浅 灰色 像 


素 对 应 的 方程 由 拉 普 拉 斯 运算 决定 : 


-4*x4 + XO + X3 + X5 + xX9 = -7 
-4*X5 + X1 + x4 + x6 + x10 = -32 


而 深 灰 色 像素 对 应 的 方程 就 是 对 应 的 目标 图 像 中 的 值 : 


x@ = 85 
x1 = 79 
x2 = 78 


只 需要 对 上 述 两 种 方程 编写 程序 即 可 创建 稀疏 算 阵 A。 


dl., 


相同 
域 和 ; 


2 编写 代码 


我 们 要 编写 的 函数 的 参数 如 下 : 
poisson_ blending(src, dst, src mask, offset x, offset y, mix=False) 


其 中 sre 和 dst 分 别 为 源 图 像 和 目标 图 像 , 它们 的 形状 不 一 定 相同 。src_mask 是 宽 和 高 与 sre 


的 二 维 数组 ， 其 中 不 为 零 的 元 素 指定 混合 的 区 域 。offset_ x 和 offset_y 为 目标 图 像 中 指定 区 
原 图 像 区 域 之 间 的 坐标 差 值 ， 通 过 这 两 个 参数 可 以 调整 目标 图 像 中 混合 区 域 的 位 置 。mix 


参数 指定 混合 方式 ， 稍 后 再 进行 详细 解释 。 


首先 需要 解决 的 问题 是 计算 源 图 像 中 src_mask 指定 区 域 通过 拉 普 拉 斯 算 子 运算 之 后 的 值 ; 


import cv2 


offset x, offset y = -36, 42 
src = cv2.imread("vinci_src.png", 1) 


dst = cv2.imread("vinci target.png", 1) 


mask = cv2.imread("vinci mask.png", 8) 


src_mask = (mask > 128).astype(np.uint8) 


srcy, src x = np.where(src mask) © 
src_laplacian = cv2.Laplacian(src, cv2.CV_16S, ksize=1)[src y, src x, :] @ 


如 由 于 指定 区 域 不 一 定 为 矩形 ， 我 们 用 numpy.where0 获 得 区 域 中 各 像素 的 下 标 ， 这样 得 到 


的 src_laplacian 数组 是 一 个 二 维 数组 , 它 的 第 0 轴 的 长 度 为 区 域内 像素 的 个 数 , 第 1 轴 的 长 度 为 


3， 分 别 与 三 个 颜色 通道 对 应 。 


@ 由 于 Laplacian0 计 算 的 结果 中 存在 负数 ， 因 此 这 里 通过 它 的 第 二 个 参数 ddepth 指定 结果 


数组 的 元 素 类 型 ， 这 里 指定 它 为 CV_16S， 表 示 结 果 为 一 个 16 位 的 符号 整数 数组 。 接 下 来 计算 
目标 图 像 中 的 区 域 信息 : 


dst_mask = np.zeros(dst.shape[:2], np.uint8) 
dst x, dst y = src x + offset x, srcy + offset y 
dst mask[dst y, dst x] =1 © 


kernel = np.array([[8,1,6],[1,1,1],[8,1,6]]，dtype=np.uint8) 
dst_mask2 = cv2.dilate(dst mask, kernel=kernel) ©@ 


dst y2, dst_ x2 = np.where(dst_mask2) 目 
dst_ ye，dst_xe = np.where(dst mask2 - dst mask) @ 


@ 由 于 遮 罩 图 像 在 目标 图 像 和 源 图 像 中 存在 位 置 偏 移 ， 因 此 先 创建 目标 图 像 的 一 个 遮 罩 数 


全 将 
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组 


dst_mask， 并 将 偏 移 之 后 的 下 标 中 对 应 的 元 素 设置 为 !。@ 将 目标 谈 罩 数组 进行 膨胀 处 理 得 


到 dst_mask2。 合 计算 dst_mask2 中 1 对 应 的 坐标 (dst_x2, dst_y2)，@ 计 算 膨胀 处 理 新 增加 的 像素 


的 坐标 (dst_xe, dst_ye)， 即 目标 区 域 的 边缘 像素 的 坐标 。 


域 


让 将 
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对 照 图 11-1( 右 ) 可 知 ，(dst_x2, dst_y2) 为 所 有 灰色 区 域 的 像素 坐标 ，(dst_x, dst_y) 为 浅 灰 色 


Xl 


的 像素 坐标 ，(dst_xe, dst_ye) 为 深 灰 色 区 域 的 像素 坐标 。 


variable_count = len(dst_x2) 
variable_index = np.arange(variable count) © 


variables = np.zeros(dst.shape[:2], np.int) 
variables[dst_y2, dst x2] = variable index 


x@ = variables[dst y , dst x ] @ 
x1 = variables[dst y-1, dst x ] 

x2 = variables[dst y+1, dst x ] 

x3 = variables[dst y ，, dst x-1] 

x4 = variables[dst y , dst x+1] 
x_edge = variables[dst ye, dst xe] © 


@(dst_x2,dst_y2) 中 的 每 个 像素 都 与 一 个 未 知 数 对 应 ， 我 们 为 这 些 未 知 数 编 上 序号 


variable_index, @ 并 得 到 (dst_x, dst_y) 中 每 个 未 知 数 及 其 上 下 左右 4 个 相 邻 的 未 知 数 的 序号 : x0、 


X1、 


xX2、x3、x4， 利 而 x_edge 则 是 与 (dst_xe, dst_ye) 中 的 未 知 数 对 应 的 序号 。 
接 下 来 计算 线性 方程 组 中 各 个 未 知 数 的 系数 矩阵 A: 
from scipy.sparse import coo_matrix 


inner_count = len(x@) 
edge_count = len(x_edge) 


r= np.r_ [xe, x6, x0@, x@, x@, x_edge] 
c = np.r [x0, x1l, x2, x3, x4, x_edge] 
Vv = np.ones(inner_count*5 + edge_count) 
v[:inner_count] = -4 


A = coo_matrix((v，(r，c))).tocsc() 


与 (dst_x, dst_y) 中 的 每 个 未 知 数 对 应 的 方程 有 5 个 系数 , 与 (dst_xe, dst_ye) 中 的 未 知 数 对 应 的 


方程 有 1 个 系数 ,因此 最 终 的 系数 矩阵 中 有 inner_count* 5+edge_count 个 非 零 值 。 与 x0 中 的 每 
个 未 知 数 对 应 的 方程 中 ，x0 的 系数 为 -4， 而 其 上 下 左右 4 个 未 知 数 的 系数 为 1。r 和 c 保存 的 
是 A 中 非 零 值 对 应 的 下 标 ， 而 v 中 保存 的 是 系数 ， 这 些 系数 中 除了 下 标 为 (x0, x0) 的 元 素 为 -4 


之 外 ， 其 余 的 都 为 1。 最 后 通过 coo_matrix0 创 建 稀 朴 矩阵 ， 并 且 转 换 成 求解 方程 组 时 使 用 的 
CSC 格 式 。 


from scipy.sparse.linalg import spsolve 
order = np.argsort(np.r_[variables[dst y, dst x], variables[dst ye，dst_xe]]) © 


result = dst.copy() 


for 


ch in (6, 1, 2): ©® 

b= np.r_[src_ laplacian[:,ch], dst[dst ye, dst xe, ch]] © 
u = spsolve(A, b[order]) © 

u= np.clip(u, 8, 255) 

result[dst y2, dst x2, ch] =u ® 


@ 由 于 方程 组 A 未 知 数 的 下 标 顺序 排列 的 ， 因 此 我 们 计算 方程 组 的 b 时 也 需要 按照 未 


知 数 的 


下 标 排 列 。 但 是 为 了 方便 计算 b， 我 们 按照 (dst_x, dst_y) 和 (dst_xe, dst_ye) 的 顺序 来 计算 ， 


因此 需要 事先 计算 order 用 于 对 常数 项 b 中 的 值 进行 排序 。@ 对 三 个 通道 的 数组 进行 循环 ，@ 计 
算 常 数 项 b， 其 中 与 (dst_x, dst_y) 对 应 的 未 知 数 的 方程 的 常数 项 从 源 图 像 的 拉 普 拉 斯 算 子 的 输出 
数组 获得 ， 而 与 (dst_xe, dst_ye) 对 应 的 未 知 数 的 方程 的 常数 项 则 为 目标 图 像 对 应 的 像素 值 。@ 调  ， 谤 
用 spsolve0 对 线性 方程 组 进行 求解 ，@ 最 后 将 未 知 数 的 解 写 到 结果 数组 中 ，(dst_x2, dst_y2) 中 的 ;网 


未 知 数 是 


图 


:按照 下 标 顺 序 排列 的 。 
11-2( 右 ) 为 泊 松 混合 的 计算 结果 。 


fig, axes = plt.subplots(1, 4, figsize=(10, 4)) 


ax1, 
ax1. 
ax2. 
ax3. 
ax4. 


for 


fig. 


ax2，ax3，ax4 = axes.ravel() 
jmshow(src[:，:，::-1]) 
imshow(mask, cmap="gray") 
imshow(dst[:，:，::-1]) 
imshow(result[:，:，::-1]) 


ax in axes.ravel(): 
ax.axis("off") 


subplots_adjust(wspace=6.65) 


图 11-2 使 用 泊 松 混合 算法 将 吉 内 莹 拉 。 班 琪 肖像 中 的 眼睛 和 鼻子 部 分 复制 到 蒙 娜 丽 莎 的 肖像 之 上 
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11.1.3 ”演示 程序 
为 了 方便 读者 观察 泊 松 混合 的 效果 ， 本 书 提供 了 一 个 使 用 TraitsUI 编 写 的 泊 松 混合 演示 程 
序 ， 界 面 如 图 11-3 所 示 。 该 界面 的 用 法 如 下 
e 首先 选择 两 幅 图 像 的 路 径 ， 然 后 按 Load 按钮 载 入 图 像 。 
e 使 用 鼠标 左 键 在 图 像 上 绘制 混合 区 域 ， 可 以 使 用 鼠标 滚 轴 修 改 画 笔 的 粗细 。 按 住 鼠 标 
右键 可 以 移动 混合 区 域 。 
e 按 Mix 按钮 进行 泊 松 混合 ， 将 左 图 中 区 域 的 内 容 混 合 到 右 图 中 对 应 的 位 置 。 为 了 显示 
混合 效果 ， 右 图 中 的 区 域 将 自动 隐藏 ， 单 击 可 重新 显示 区 域 。 


scpy2.examples.possion: 使 用 TraitsUI 编写 的 泊 松 混合 演示 程序 。 该 程序 使 用 
[© | scpy2.matplotlib.freedraw_widget 中 提供 的 ImageMaskDrawer 在 图 像 上 绘制 半 透 明 的 白 
BD 名 区 域 


Left file: C¥Users¥RY¥Dropbox¥scipybook ycodesyscpy2Wexamplesypossionyvincisrcpne 
Right file: C¥Users¥RYYDropbax¥scipybook Ncodes¥scpy Wexamplesypossionyvnci tsrgetpne 


[ed |][ Cow |[ Mx 


[3 
的 


到 11-3 泊 松 混合 演示 程序 的 界面 截图 


11.2 经 典 力学 模拟 


Figure: 404 474 


A 与 本 节 内 容 对 应 的 Notebook 为 : 11-examplesexamples-200-physics-simulation ipynb。 


632 ， 


本 节 以 悬 链 线 、 最 速 降 线 和 和 


单 的 经 典 力学 现象 。 
11.2.1 悬 链 线 


扣押 为 例 介 绍 如 何 使 用 Scipy 中 的 integrate 和 optimize 库 模 拟 简 


将 绳子 的 两 端 固定 在 同一 水 平 高 度 ， 绳 子 因 重 力作 用 而 垂下 所 形成 的 形状 被 称 为 悬 链 线 ， 


它 的 曲线 函数 为 : 


其 中 a 为 决定 下 垂 程度 的 系数 ， 


XxX 
y= acosh= 


经 过 (0, 0) 和 (1,0) 两 个 点 ， 效 果 如 图 114 所 示 : 


def catenary(x, a): 
return a*np.cosh((x - 8.5)/a) - a*np.cosh((-8.5)/a) 


x = np.linspace(6，1，166) 
for a in [8.35, 8.5, 8.8]: 
pl.plot(x, catenary(x, a), label="$a={:g}$".format(a)) 


ax = pl.gca() 


ax.set_aspect("equal") 
ax.legend(loc="best") 


pl.margins(8.1) 


下 面 的 catenary0 函 数 对 悬 链 线 方程 进行 坐标 平移 ， 使 得 它 


图 114 各 种 长 度 的 悬 链 线 


曲线 的 长 度 可 以 使 用 如 下 定 积分 来 计算 : 


dy. 
一 PE 入 了 
S | 1+ Ga dx 


下 面 我 们 先 利 


前 面 的 catenary0 函 数 大 致 计算 


y = catenary(x, 0.35) 
np.sqrt(np.diff(x)**2 + np.diff(y)**2).sum() 


曲线 的 长 度 : 


性 


重 将 
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1.37655226488 


定 积分 中 的 积分 项 可 以 使 用 SymPy 进行 符号 运算 ， 并 使 用 lambdify0 将 最 终 的 表达 式 转换 
成 函数 ， 然 后 使 用 integrate.quad0 进 行 定 积分 运算 : 


from sympy import symbols, cosh, S, sqrt, lambdify 
import sympy 

x, a = symbols("x, a") 

y=a* cosh((x - S(1)/2) / a) 

Ss = sqrt(1 + y.diff(x)**2) 

fs = lambdify((x, a), s, modules="math") 


def catenary_length(a): 
return integrate.quad(lambda x:fs(x, a), 8, 1)[8] 


length = catenary_length(8.35) 
length 
1.3765789965 


1. 使 用 运动 方程 模拟 悬 链 线 


为 了 使 用 牛顿 力学 中 的 运动 方程 模拟 悬 链 线 , 我 们 可 以 把 悬 链 看 成 由 多 个 弹簧 连接 的 质点 
系统 ， 每 个 质点 受到 重力 以 及 左右 两 个 弹 黎 力 。 当 质点 运动 时 ， 它 还 会 受到 大 小 与 速度 成 正比 
的 阻力 。 为 了 使 悬 链 两 端的 质点 保持 静止 ， 可 以 不 计算 其 受 力 ， 因 此 这 两 个 质点 的 加 速度 始终 
为 0。 每 个 质点 有 X 和 立方 向 上 的 速度 与 加 速度 共 4 个 状态 ,对 于 由 NN 个 质点 构成 的 系统 ， 共 
有 4XN 个 状态 。 
下 面 的 diff_statusGstatus,b 计 算 状 态 为 status 时 的 微分 ,然后 使 用 odeint0 对 该 系统 进行 积分 ， 

即 可 计算 该 系统 在 不 同时 刻 的 状态 。 当 时 间 足 够 长 时 ， 由 于 阻力 作用 ， 各 个 质点 最 终 会 处 于 平 
衡 位 置 ， 效 果 如 图 11-5 所 示 。 


N = 31 
dump = 8.2 # 阻 尼 系 数 
k = 168.8 # 漳 钾 系 数 
1 = length / (N - 1) # 漳 簧 原 长 度 
g = 6.61 # 重 力 加 速度 


x@ = np.linspace(@, 1, N) 
y8 = np.zeros_like(x@) 
Vvx8 = np.zeros_like(x6) 
Vy = np.zeros_ like(x6) 


def diff_status(status， 七 ) : 
X，y，VvX，Vvy = status.reshape(4, -1) 


dvx = np.zeros_like(x) 
dvy = np.zeros_like(x) 
dx = VX 
dy = vy 


s= np.s_[1:-1] 


11 = np.sqrt((x[s] - x[:-2])**2 + (y[s] - y[:-2])**2) 

12 .=pssqrt((xLs] = xL2: 1 2 (y[s] = yL2:])*2) 

qdITEE (110 1) /I 

12 = (T1200 1) /2 

dvx[s] = -vx[s] * dump - (x[s] - x[:-2]) * k * dl1 - (x[s] - x[2:]) * k * dl2 
dvy[s] = -vy[s] * dump - (y[s] - y[:-2]) * k * dl1 - (y[s] - y[2:]) * k * dl2+g 
return np.r_[dx, dy, dvx, dvy] 


status@ = np.r_[x8, ye, vx8@, vye] 


二 
[s 


np.linspace(86，56，166) 
integrate.odeint(diff_status, statuse, t+) 
x, y, Vx, Vy = r[-1].reshape(4, -1) 


r, e = optimize.curve fit(catenary, x, -y, [1]) 
print "a =", r[8], "length =", catenary_length(r[8]) 


x2 = np.linspace(8，1，166) 

pl.plot(x2, catenary(x2, 8.35)) 
pl.plot(x2, catenary(x2, r)) 

pl.plot(x, -y, "o" 

pl.margins(8.1) 

a = 69.336992662616 length = 1.46946777721 


- Tr Tr r 


0.0 


0.0 0.2 0.4 0.6 0.8 1.0 


图 11-5 使 用 运动 方程 模拟 悬 链 线 ， 由 于 弹簧 会 被 拉 伸 ， 因 此 基 链 线 略 比 原始 长 度 长 
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scpy2.examples.catenary: 使 用 TraitsUI 制作 的 是 链 线 的 动画 演示 程序 ， 可 通过 界面 修 
[OO， 改 各 个 参数 。 


在 图 11-5 中 , 圆 点 表示 各 个 质点 的 最 终 位 置 , 红色 曲线 为 使 用 悬 链 线 方程 对 质点 位 置 进行 
拟 合 后 得 到 的 最 佳 拟 合 悬 链 线 ， 而 蓝 色 曲 线 为 弹簧 保持 原 长 时 的 悬 链 线 。 为 了 使 得 最 终 状态 接 
近 原 长 时 的 悬 链 线 ， 需 要 尽量 大 的 弹簧 系数 和 尽量 小 的 重力 加 速度 ， 这 样 能 保证 每 根 弹簧 接近 
原 长 。 读 者 可 以 试 着 修改 前 面 的 系数 ， 使 最 终 状态 尽量 接近 蓝 色 曲 线 。 
2. 通过 能 量 最 小 值 计算 悬 链 线 
当 质 点 之 间 为 刚性 连接 时 ， 弹 簧 不 存储 任何 弹性 势能 ， 重 力 使 得 整个 系统 的 重力 势能 降 为 
最 低 ， 因 此 可 以 通过 最 小 化 势能 计算 各 个 质点 的 最 终 状 态 。 由 于 悬 链 线 的 两 端 固定 ， 而 质点 之 
间 的 距离 固定 ， 因 此 该 最 小 化 问题 带 有 许多 约束 条 件 。 为 了 尽量 减少 约束 条 件 ， 我 们 以 每 个 连 
接 杆 的 角度 为 变量 表示 整 条 悬 链 线 的 状态 。 悬 链 线 的 一 端 固定 在 (0,0) 处 ， 经 过 每 个 连接 杆 最 终 
实 | 到 达 坐 标 (1 0) 处。 因此 满足 如 下 两 个 约束 条 件 ， 其 中 8 为 每 根 杆 的 方向 ，] 为 杆 的 长 度 。 整 个 系 
| 统 如 图 11-6 所 示 。 


荀 


Flcos0i = >lsin6i = 0 
第 i 个 质点 的 Y 轴 位 置 为 : 


0.0 0.2 0.4 0.6 0.8 1.0 


图 11-6 把 其 链 线 分 为 多 个 质点 并 用 无 质量 的 连接 杆 相连 


因此 最 小 化 的 问题 就 是 找到 一 组 8:， 它 们 满足 两 个 约束 条 件 ， 并 且 使 得 P 最 小 ，9; 的 取 值 
范围 为 3 < 6 <3。 这 种 带 等 式 约束 条 件 的 最 小 化 问题 可 以 使 用 scipy.optimizefmin_slsqp0 进 行 


求解 。 
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在 下 面 的 程序 中 ，g10 计 算 最 右 端点 的 横 坐 标 需要 满足 的 条 件 ，g20 为 纵 坐 标 需要 满足 的 条 
件 ， 这 两 个 函数 返回 0 时， 表示 满足 约束 条 件 。P(theta) 计 算 状 态 为 theta 时 的 势能 。@ 为 了 提高 
优化 的 计算 速度 ， 我 们 让 初始 值 满足 两 个 约束 条 件 ， 如 图 11-7 中 的 叉 点 所 示 。@fmin_slsqp0 的 


eqcons 参数 是 计算 等 式 约束 条 件 的 函数 列表 。@bounds 参数 是 每 个 变量 的 取 值 范围 列表 .。 此 外 ， 


如 果 最 小 化 问题 中 存在 不 等 式 约束 条 件 ， 可 以 通过 ieqcons 参数 指定 。 当 约束 条 件 很 多 时 ， 为 了 
减少 函数 的 调用 参数 ， 可 以 使 用 f_eqcons 和 f_ieqcons 参数 指定 一 个 计算 约束 条 件 的 函数 ， 这 两 


个 函数 返回 的 数组 表示 各 个 约束 条 件 。 
N = 36 
1 = length / N 


def g1(theta): 
return np.sum(1 * np.cos(theta)) - 1.6 


def g2(theta): 
return np.sum(1 * np.sin(theta)) - 6.6 


def P(theta): 
y= 1*np.sin(theta) 
cy = np.cumsum(y) 
return np.sum(cy) 


theta8 = np.arccos(1.6 / length) 
theta_init = [-theta6] * (N // 2) + [theta6e] * (N // 2) © 


theta = optimize.fmin_slsqp(P, theta_init, 
eqcons=[g1, g2], © 
bounds=[(-np.pi/2, np.pi/2)]*N) © 
Optimization terminated successfully. (Exit mode 9) 
Current function value: -7.76529946378 
Iterations: 9 
Function evaluations: 288 
Gradient evaluations: 9 


可 以 看 到 只 欠 代 了 9 次 就 找到 了 最 优 解 ， 下 面 根据 9; 计算 出 每 个 质点 的 位 置 ， 如 图 11-7 所 


示 。 图 中 蓝 色 曲 线 为 基 链 线 方程 所 得 的 理论 值 。 


x_init = np.r_[8, np.cumsum(1 * np.cos(theta_init))] 
y_init = np.r_[6，np.cumsum(1 * np.sin(theta init))] 


x = np.r_[8, np.cumsum(1 * np.cos(theta))] 
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y=np.r_[6，np.cumsum(1 * np.sin(theta))] 


x2 = np.linspace(6，1，166) 
pl.plot(x2, catenary(x2, 8.35)) 
pl.plot(x, y, "0") 

pl.plot(x init, y init, "x") 
pl.margins(8.1) 


00 02 04 05 08 10 
图 11-7 使 用 fimin_slsqp0 〇 计算 能 量 最 低 的 状态 ， 叉 点 表示 最 优化 的 初始 状态 
11.2.2 ”最 速 降 线 
所 谓 最 速 降 线 问题 ,是 指 在 两 点 之 间 建 立 一 条 无 摩擦 的 轨道 ， 使 得 小 球 从 高 点 到 低 点 所 需 
的 时 间 最 短 。 考 虑 两 点 高 度 相同 的 极端 情况 ， 显 然 这 条 曲线 不 是 直线 。 根 据 维 基 百 科 的 相关 介 
绍 ， 下 降 高 度 为 D 的 最 速 降 线 满足 如 下 方程 : 


荀 


由 公式 可 知 ，y 的 取 值 范围 为 0 到 D 之 间 。 下 面 先 用 数值 定 积 分 计算 D 为 1 时， 最 速 降 线 终 
点 的 X 轴 坐标 : 
x, _ = integrate.quad(lambda y:np.sqrt(y/(1.6-y))，8，1) 


print x 
1.57679632679 


可 以 看 出 曲线 终点 和 起 点 之 间 轴 的 差 为 r/2。 
1. 使 用 odeint0 计 算 最 速 降 线 
| 使 用 odeint0 对 下 面 的 微分 方程 进行 积分 即 可 得 到 最 速 降 线 的 曲线 : 
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下 面 是 计算 最 速 降 线 的 程序 ， 效 果 如 图 11-8 所 示 。 当 y = 0 时 ， ey 


dy/dx 为 无 穷 大 。@ 限 制 y 的 值 必 须 大 于 极 小 值 eps 并 小 于 D， 这 样 才能 保证 积分 能 正常 进 


@ 使 用 微分 方程 计算 的 曲线 只 是 左 半边 的 曲线 ， 完 整 的 曲线 相对 于 x = Dn/2 对 称 。 和 
odeint0 能 计算 完整 的 曲线 ， 需要 根据 x 的 值 判断 和 的 符号 。 


def brachistochrone_curve(D，N=1666) : 


x 
p 


eps = le-8 

def f(y, x): 
y = min(max(eps, y), D) © 
flag= -1ifx>=D*np.pi/2else1@ 
return flag * ((D - y) / y) ** 8.5 


x@ = np.linspace(@, D * np.pi, N) 
y = integrate.odeint(f, 0, x8) 
return x8@, y.ravel() | 实 


区 


，y = brachistochrone_curve(2.6) 
1.plot(x, -y) 


图 11-8 使 用 odeint0 计 算 最 速 降 线 


2. 使 用 优化 算法 计算 最 速 降 线 
可 以 使 用 优化 算法 近似 计算 最 速 降 线 。 首 先 将 义 轴 从 0 到 target 等 分 为 N-1 份 ， 每 个 点 对 


应 的 Y 轴 坐标 y 就 是 要 优化 的 自 变量 。 优 化 的 目标 是 计算 小 球 经 过 该 曲线 所 需 的 时 间 。 根 据 能 
量 守 能 定理 ， 可 以 计算 出 小 球 到 达 每 个 坐标 点 时 的 速度 为 v = V28gy。 


离 计 


小 球 通过 整 条 曲线 的 时 间 最 短 。 


小 球 经 过 每 条 线段 的 速度 按照 两 个 端点 速度 的 平均 值 计算 , 线段 的 长 度 根据 两 个 端点 的 距 
| 算 ， 由 此 可 以 得 出 小 球 经 过 每 条 线段 的 时 间 。 优 化 的 目标 就 是 所 有 这 些 时 间 之 和 最 小 ， 即 


下 面 是 使 用 优化 算法 计算 最 速 降 线 的 程序 , 计算 结果 如 图 11-9 所 示 。 由 图 可 知 最 优化 的 结 


果 逢 


积分 运算 的 结果 相同 。 
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N= 166.6 

target = 19.6 

x = np.linspace(9，target，N) 
tmp = np.linspace(6，-1，N // 2) 
ye = np.r_[tmp, tmp[::-1]] 
g=9.8 


def total time(y): 
s = np.hypot(np.diff(x), np.diff(y)) © 
v= np.sqrt(2 * g * np.abs(y)) ©@ 
avg_v = np.maximum((v[1:] + v[:-1])*0.5, 1e-10) © 
t= s/avgyv 
return t.sum() 


def fix two ends(y): 
return y[[86，-1]] 


y_opt = optimize.fmin_slsqp(total time, y8, eqcons=[fix two ends]) @ 
pl.plot(x，y8，"k--"，label=u" 初 始 值 ") 
pl.plot(x，y_opt，label=u" 优 化 结果 ") 
x2, y2 = brachistochrone_curve(target / np.pi) 
pl.plot(x2，-y2，label=u" 最 速 降 线 ") 
pl.legend(loc="best") 
Optimization terminated successfully. (Exit mode 6) 
Current function value: 2.53634462725 
Iterations: 72 
Function evaluations: 7376 
Gradient evaluations: 72 


2 4 6 8 10 


图 11-9 使 用 优化 算法 计算 最 速 降 线 


@ 调 用 hypot0 计 算 每 条 线段 的 长 度 ， 思 使 用 能 量 守恒 公式 计算 小 球 到 达 每 点 的 速度 ， 目 计 
算 每 个 线段 的 平均 速度 ， 为 了 防止 平均 速度 为 0 导致 无 法 计算 时 间 ， 这 里 使 用 maximum0 将 速 
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度 的 下 限 设 置 为 10-10。 

@ 由 于 需要 保证 曲线 两 个 端点 的 立轴 坐标 为 0， 因 此 我 们 使 用 fmin_slsqp0 优 化 函数 ， 并 
fix_two_end0 保 证 两 个 端点 的 立轴 坐标 始终 为 0。 

11.2.3 ” 单 摆 模拟 


如 图 11-10 所 示 ， 由 一 根 不 可 仲 长 、 质 量 不 计 的 绳子 ， 上 端 固 定 ， 下 端 系 一 质点 ， 这 样 的 
装置 叫 作 单 摆 。 


t 


区 


图 11-10 单 所 装置 示意 图 


根据 牛顿 力学 定律 ， 可 以 列 出 如 下 微分 方程 : 
20 g 
de = Zsing = 三 0 
其 中 6 为 单 摆 的 摆 角 ， 刀 为 单 摆 的 长 度 ，8 为 重力 加 速度 。 此 微分 方程 的 符号 解 无 法 直接 求 
， 因 此 只 能 调用 odeint0 对 其 求 数值 解 。 
odeint0 要 求 每 个 微分 方程 只 包含 一 阶 导数 ， 因 此 我 们 需要 对 上 面 的 微分 方程 做 如 下 变形 : 
ts vb， 人 - -gsaned 


下 面 是 利用 odeint0 计 算 单 摆 轨 迹 的 程序 ， 摆 角 和 时 间 的 关系 如 图 11-11 所 示 : 


from math import sin 


g = 9.8 


def pendulum equations(w, t, 1): 
th, v=w 
dth = V 
dv =-g/1* sin(th) 
return dth, dv 


t = np.arange(0, 10, 0.61) 
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track = integrate.odeint(pendulum equations, (1.0, 8), t, args=(1.0,)) 
pl.plot(t, track[:, 8]) 

pl.xlabel(u" 时 间 ( 秒 )") 

pl.ylabel(u" 振 动 角度 (弧度 )") 


1.0 
0.5 上 
El 
忌 
最 0.0 上 
沪 
监 
-0.5 
-1.0 1 
0 2 4 6 8 10 
时 间 ( 秒 ) 
中 图 11-11 初始 角度 为 1 弧度 的 单 摆 摆 动 角度 和 时 间 的 关系 
1. 小 角度 时 的 摆动 周期 


高 中 物理 课 介绍 过 当 最 大 摆动 角度 很 小 时 ， 单 摆 的 摆动 周期 可 以 使 用 如 下 公式 计算 ; 


Tt, =2r | 
=27|- 
2 g 


这 是 因为 当 9 < 1 时 ，sin6 x 6， 这 样 微分 方程 就 变 成 了 : 


此 微分 方程 的 解 是 一 个 简 谐 振动 方程 ， 很 容易 计算 其 摆动 周期 。 下 面 我 们 用 SymPy 对 这 
个 微分 方程 进行 符号 求解 : 


from sympy import symbols, Function, dsolve 

t，g，1 = symbols("t,g,1"，positive=True) # 分 别 表 示 时 间 、 
y = Function("y") # 摆 角 函数 用 y(t) 表 示 
dsolve(y(t).diff(t,2) + g/l1*y(t), y(t)) 


y(t) = Cisin 笑 下 ) 十 Czcos (二 


可 以 看 到 简 谐 振动 方程 的 解 是 由 两 个 频率 相同 的 三 角 函 数 构成 的 ， 周期 为 2r 上 


力 加 速度 和 长 度 


2. 大 角度 时 的 摆动 周期 
但 是 当初 始 摆 角 增 大 时 ， 上 述 近似 处 理会 带 来 无 法 忽视 的 误差 。 下 面 让 我 们 看 看 如 何 用 数 
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值 计 算 的 方法 求 出 单 摆 在 任意 初始 摆 角 时 的 摆动 周期 。 


g = 9.8 


def pendulum th(t, 1, th@): 
track = integrate.odeint(pendulum equations, (the, 8), [8, t], args=(1,)) 
return track[-1, 8] 


def pendulum period(1, the): 
te = 2*np.pi*(] / g)**60.5 / 4 
t = fsolve( pendulum th, te, args = (1, the) ) 
return t*4 


要 计算 摆动 周期 ,只 需要 计算 从 最 大 摆 角 到 0 摆 角 所 需 的 时 间 , 摆动 周期 是 此 时 间 的 4 倍 。 
为 了 计算 出 这 个 时 间 值 ， 首 先 需要 定义 函数 pendulum_th0 来 计算 长 度 为 1、 初 始 角 度 为 th0 的 单 
摆 在 时 刻 t 的 摆 角 ; 


def pendulum th(t, 1, the): 
track = integrate.odeint(pendulum equations, (the, 8), [8, t], args=(1,)) 
return track[-1, 8] 


此 函数 仍然 使 用 odeint0 进 行 微分 方程 组 求解 ， 只 是 我 们 只 需要 计算 时 刻 t 的 摆 角 ， 因 此 传 
递 给 odeint0 的 时 间 序 列 为 [0, 昌 。odeint0 内 部 会 对 时 间 进 行 细 分 ， 保 证 最 终 的 解 是 正确 的 。 
接 下 来 只 需要 找到 第 一 个 使 pendulum_th0 的 结果 为 0 的 时 间 即 可 。 这 相当 于 对 pendulum_th0 
求解 ， 可 以 使 用 scipy.optimize.fsolve0 对 这 种 非 线 性 方程 进行 求解 : 
from scipy.optimize import fsolve 
def pendulum period(1, the): 
t9 = 2*np.pi*(] / g)**60.5 / 4 


t = fsolve(pendulum th, te@, args = (1, the)) 
returnt*4 


fsolve0 求 解 时 需要 一 个 初始 值 尽量 接近 真实 的 解 ， 用 小 角度 单 摆 的 周期 的 3 作 为 这 个 初始 


值 是 一 个 很 不 错 的 选择 。 下 面 利用 pendulum_period0 计 算出 初始 摆动 角度 从 0 到 90 度 的 摆动 
周期 : 


ths = np.arange(6，np.pi/2.6，68.61) 
periods = [pendulum period(1, th) for th in ths] 
为 了 验证 fsolve0 求 解 摆 动 周期 的 正确 性 ,下面 的 公式 是 从 维基 百科 中 找到 的 摆动 周期 的 精 
确 解 : 


训 将 
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上 go 
T=4 =K(sinZ) 
8 长 


其中 的 函数 K 为 第 一 类 完全 椭圆 积分 函数 ， 定 义 如 下 : 


| We dg 
| KE = 一 
! (9 o V1—k?sin:0 


可 以 用 scipy.special.ellipk0 计 算 此 函数 的 值 : 


from scipy.special import ellipk 
periods2 = 4 * (1.0 / g)**0.5 * ellipk(np.sin(ths / 2) **2 ) 


图 11-12 比较 两 种 计算 方法 ， 可 以 看 到 结果 是 完全 一 致 的 : 


ths = np.arange(6，np.pi/2.6，6.61) 

periods = [pendulum period(1, th) for th in ths] 

periods2 = 4 * (1.6/g)*#*#6.5 *ellipk(np.sin(ths/2)**2) # 计算 单 摆 周 期 的 精确 值 
pl.plot(ths，periods，label = u"fsolve 计算 的 单 氛 周期 "，linewidth=4.8) 
pl.plot(ths，periods2,"r"，label = 凯 " 单 摆 周 期 精确 值 "，1linewidth=2.6) 
pl.legend(loc='upper left') 

p1.xlabel(u" 初 始 摆 角 (弧度 )”) 

pl1.ylabel(u" 皖 动 周 期 ( 秒 )") 
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图 11-12 单 摆 的 摆动 周期 和 初始 角度 的 关系 


11.3 ”推荐 算法 


A 与 本 节 内 容 对 应 的 Notebook 为 : 11-examples/examples-300-movielens.ipynb。 
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节 介绍 如 何 通过 MovieLens 提供 的 用 户 


11. 


第 三 列 为 用 户 对 电影 的 5 分 制 评分 值 。 下 面 


推荐 算法 是 指 利用 用 户 的 一 些 行为 ,通过 一 些 数学 算法 ， 推 测 出 用 户 可 能 喜欢 的 东西 。 本 
电影 的 评分 数据 进行 一 些 推荐 算法 方面 的 研究 。 


3.1 读 入 数据 


movelens.data 文件 中 是 以 制 表 符 分 隔 的 评分 数据 ， 其 第 一 列 为 用 户 ID、 第 二 列 为 电影 ID、 
用 pandas.read_table0 读 入 该 数据 ， 并 指定 列 名 与 列 


的 数据 类 型 。 由 于 通过 推荐 算法 计算 的 评分 值 不 是 整数 ， 因 此 这 里 将 评分 值 的 数值 类 型 设置 为 
浮 点 数 。 原 数据 中 用 户 ID 和 电影 DD 都 是 从 1 开始 的 ， 为 了 方便 后 续 的 黎 朴 矩阵 表达 ， 将 它们 
都 减 去 1。 

columns = ['user id'，'movie id', "rating'] 


dtypes = [np.int32，np.int32，np.float] 

ratings = pd.read_table('data/movielens.data'， 
names=columns， 
Usecols=[6，1，2]， 
dtype=dict(zip(columns, dtypes))) 

ratings["user_id"] -= 

ratings["movie id"] -= 1 


下 面 将 评分 次 数 少 于 10 的 用 户 和 电影 的 评分 删除 ， 这 有 助 于 推荐 算法 将 运算 集中 在 有 足 


够 数据 可 以 分 析 的 用 户 和 电影 之 上 : 


能 防止 推荐 算法 对 训练 用 数据 过 度 学 习 造 成 实际 的 性 能 下 降 。 下 面 的 train_test_split0 完 成 这 个 
任务 ， 其 test_size 参数 为 测试 用 数据 占 全 部 数据 的 比例 。 这 里 通过 产生 一 个 0 到 1 之 间 的 随机 
数 数组 对 数据 进行 分 组 ， 得 到 6 个 一 维 数 组 : u_train、v_train、r_train、u_test、v_test、L_test、 它 
们 分 别 为 训练 用 的 用 户 ID、 训 练 用 的 电影 ID、 训练 用 的 电影 评分 、 测 试用 的 用 户 ID、 测 试 


的 


uv r = ratings.user_id.values, ratings.movie id.values, ratings.rating.values 


# 出 除 评分 数 少 十 16 的 用 户 和 电影 

u_count = pd.value_counts(u) 

V_count = pd.value_counts(v) 

mask = (u_count >= 16)[u].values & (v_count >= 16)[v].values 
uv r = uU[mask]，v[mask]，r[mask] 


为 了 评价 推荐 算法 的 性 能 ， 需 要 将 评分 数据 分 为 训练 用 数据 和 测试 用 数据 两 部 分 。 这 样 才 


昌 影 ID 和 测试 用 的 电影 评分 。 


def train_test_split(arrays，test_size=6.1): 
np.random.seed(6) 
mask_test = np.random.rand(len(arrays[6])) < test_size 
mask_train = ~mask_test 
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arrays_train = [arr[mask _ train] for arr in arrays] 
arrays_test = [arr[mask_test] for arr in arrays] 


return arrays_train + arrays_test 


Utrain, v_train, r_train, u test, v_test, r test = train test split([u, v, r]) 
nu = np.max(u) + 1 

nv = np.max(v) + 1 

nr = len(u_train) 


seed0 的 系数 : 


assert np.all(np.unique(u train) == np.unique(u)) 
assert np.all(np.unique(v_train) == np.unique(v)) 


11.3.2 ”推荐 性 能 评价 标准 


实 | 
例 ， 
在 讨论 具体 的 推荐 算法 之 前 ,还 需要 明确 如 何 评价 推荐 性 能 。 下 面 是 两 个 常用 的 性 能 评价 
公式 
RSE Pt 一 yp)? 
N 
12 = 1 Ot yp) 
Ft — Ay))? 


其 中 RMSE 的 值 越 接近 0 性 能 越 好 ， 而 r? 的 值 通常 在 0 到 1 之 间 ， 越 接近 1 越 好 。 


def rmse_score(y_ true, y_pred): 
d= ytrue - ypred 
return np.mean(d**2)**@.5 


def r2_score(y_ true, y_pred): 
d= ytrue - y_pred 
return 1 - (d**2).sum() / ((y_true - y_true.mean())**2).sum() 

下 面 用 这 两 个 评价 标准 对 每 个 电影 的 平均 评分 值 的 预测 性 能 进行 评价 。 通 过 Pandas 的 
groupby 对 评分 值 按照 电影 ID 进行 分 组 ， 并 计算 每 组 的 评分 值 。 测 试用 数据 中 每 部 电影 的 预测 
评分 值 为 pred， 将 之 与 测试 数据 中 的 实际 评分 值 进行 比较 ， 计 算 RMSE 和 r?: 

movies mean = pd.Series(r_train).groupby(v_train) .mean() 

r_pred = movies mean[v_test] 


rmse_avg, r2 avg = rmse_score(r test, r_pred), r2_score(r_test, r_pred) 
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1.6122857327818662 8.17722524926979877 


通过 计算 每 个 电影 的 平均 评分 值 ， 可 以 为 所 有 用 户 推荐 整体 最 受 欢迎 的 电影 , 但 是 无 法 根 
据 每 位 用 户 的 喜好 推荐 他 最 可 能 喜欢 的 电影 。 为 了 实现 为 不 同 的 用 户 推荐 不 同 的 电影 ， 需 要 对 
电影 评分 进行 矩阵 分 解 。 


11.3.3 ”和 矩阵 分 解 
准备 好 测试 数据 以 及 评价 标准 之 后 ， 下 面 正式 开始 实现 推荐 算法 。 该 算法 应 该 能 从 训练 数 
据 中 找到 更 多 的 规律 ， 使 得 其 对 于 测试 数据 的 推荐 性 能 超过 上 面 以 均值 为 预测 值 的 性 能 。 
可 以 把 用 户 i1 对 电影 j 的 评分 rij 按照 下 面 的 公式 分 解 成 4 部 分 的 和 |: 


K 
nij = htt yt 》 UicVe 
k=1 


其 中 hp 是 一 个 标量 ， 它 是 所 有 评分 的 平均 值 。u 是 一 个 矢量， 其 长 度 为 Nu，ui 为 用 户 i 的 评 
分 系数 。v 是 一 个 矢量 ， 其 长 度 为 N,，vi 为 电影 j 的 评分 系数 。 这 里 Nu 表示 用 户 数 ，N, 表 示 电 

1 是 一 个 与 用 户 对 应 的 矩阵 ， 其 大 小 为 Nu x K。V 是 一 个 与 电影 对 应 的 和 矩阵， 其 大 小 为 
Nv XxK。 这 里 K 的 长 度 可 任意 指定 。 计 算 U 的 第 i 行 与 V 的 第 j 行 上 对 应 元 素 的 乘积 和 ， 就 得 到 
了 用 户 i 对 电影 j 的 评分 系数 。 可 以 这 样 理解 和 V: 每 个 电影 都 用 K 个 属性 进行 描述 (V)， 而 每 
个 用 户 都 对 这 K 个 属性 有 不 同 的 喜好 权 值 (U0)。 这 两 组 值 的 乘积 和 就 是 某 个 用 户 对 某 部 电影 的 喜 
好 程度 。 

下 面 先 计算 wi 和 vj， 我 们 希望 找到 一 组 解 最 符合 如 下 方程 组 : 

nij=4H+uit+Vy 

可 以 看 出 这 是 一 个 最 小 二 乘法 的 问题 : u 和 v 中 有 Nu + Ny 个 未 知 数 ， 它 们 需要 满足 Ni 个 方 
程 ， 这 里 用 NL 表示 评分 数 。 最 小 二 乘法 中 的 和 矩阵 A 的 大 小 为 Nr x (Nu + Nv)， 这 是 一 个 非常 大 
的 和 矩阵， 而 其 中 绝 大 部 分 的 元 素 都 为 0， 实 际 上 A 的 每 行 中 只 有 两 个 不 为 零 的 元 素 ， 它 们 的 值 
都 为 1。 因此 需要 使 用 稀 玻 矩阵 表示 矩阵 A: 

from scipy import sparse 

from scipy.sparse import linalg 


r_avg = r_train.mean() 
row_ idx = np.r_[np.arange(nr), np.arange(nr)] 
col idx = np.r_[u train, v_train + nu] 


values = np.ones_like(row idx) 


A = sparse.coo matrix((values, (row idx, col idx)), shape=(nr, nu+nv)) 
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矩阵 A 中 每 行 有 两 个 1， 其 余 的 值 都 为 0。 我 们 采用 coo_matrix0 创 建 该 稀 玻 矩阵 ，row_idx 
为 每 个 非 零 元 素 所 在 的 行 ，col_idx 为 非 零 元 素 所 在 的 列 ，values 是 这 些 非 零 元 素 的 值 。 它 们 都 
是 长 度 为 2Nr 的 一 维 数组 。 

下 面 使 用 scipy.sparse.linalg 中 的 lsqr0 进 行 最 小 二 乘法 求解 。 得 到 一 组 解 x， 其 中 前 Nu 个 元 
素 为 u， 后 N, 个 元 素 为 v。 


x = linalg.lsqr(A, r_train - r_avg)[6] 


ub = x[:nu] 
vb = x[nu:] 


下 面 按照 公式 mi = 十 ui 十 叉 计 算 测 试 数据 的 预测 评分 ， 并 与 实际 评分 进行 比较 : 


r_pred = r_avg + ub[u test] + vb[v_test] 
rmse, r2 = rmse_score(r test, r_pred), r2_score(r test, r_pred) 


@.93856259728693425 ”8.36471611866212672 


接 下 来 我 们 将 注意 力 集中 到 计算 U 和 V 的 矩阵 分 解 算法 上 。 和 抵 阵 分 解 的 目标 是 尽量 接近 下 
面 的 r_train2: 


r_train2 = r_train - (r_avg + ub[u_ train] + vb[v_train]) 
rtest2 =rtest - rpred 
# 以 下 程序 从 该 array 元 组 获取 数据 


arrays = U_train, v_train, r_train2, u test, v_test, r test2 
11.3.4 ”使 用 最 小 二 乘法 实现 矩阵 分 解 


将 rtrain2 分 解 为 两 个 矩阵 U 和 V 的 乘积 也 是 - 化 的 问题 。 拢 Te 共有 
Nu : K 十 Nv. K 个 未 知 数 ， 而 最 小 化 的 目标 方程 有 Nr 个 。 下 面 是 与 第 i 个 用 户 对 第 j 个 电影 的 评 
分 值 对 应 的 方程 : 
Uio: Vo + Ui :Vit = 
于 每 个 方程 都 包含 U 和 V 中 未 知 数 的 乘积 ， 站 全 人 线性 力 和 起 无 法 使 用 前 面 
的 最 小 二 乘法 函数 lsqr0。 对 于 这 种 方程 组 的 最 优化 问题 ， 可 以 假设 其 中 的 一 部 分 未 知 数 已 知 ， 
从 而 将 其 转换 成 线性 方程 组 。 
如 果 V 已 知 , 那么 上 0 为 未 知 数 , 个 数 为 Nu .K。 可 以 使 用 最 小 二 乘法 对 这 些 未 知 数 进 行 求解 。 
这 时 最 小 二 乘法 中 的 矩阵 A 的 大 小 为 N. x Nu K。 同样 若 U 已 知 , 则 V 为 未 知 数 , 个 数 为 Ny: K， 
这 时 最 小 二 乘法 的 矩阵 A 的 大 小 为 Ne x Nv : K。 
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具体 的 运算 步骤 如 下 : 

(D 通过 随机 数 产 生 U 和 V。 

O) 假设 V 为 已 知 数 ， 使 用 最 小 二 乘法 对 U 进 行 求解 。 使 用 新 的 解 更 新 U。 
G) 假设 U 为 已 知 数 ， 使 用 最 小 二 乘法 对 V 进 行 求解 。 使 用 新 的 解 更 新 V。 
(4 使 用 U 和 V 对 测试 数据 进行 推荐 性 能 评价 。 

(5) 转 到 步骤 CO) 重 复 执行 ， 直 到 推荐 性 能 的 评价 不 再 提升 。 


F 面 


内 uv_decompose0 实 现 上 述 运算 步骤 ,armrays 参数 为 包括 训练 数据 和 测试 数据 的 6 个 数 


组 。 其 他 参数 均 用 于 控制 训练 的 参数 。@ 通 过 随机 数 产生 U 和 V,， 为 了 保证 这 两 个 矩阵 相 乘 后 得 
到 的 结果 大 小 基本 一 致 ， 需 要 以 大 为 缩放 因子 。 


@ 使 


用 coo_matrix0 创 建 当 U 为 未 知 数 、V 为 已 知 数 时 的 系数 窍 阵 A" ， 并 将 其 转换 成 


csr_matrix0 格 式 的 稀 政 和 矩阵。 假设 电影 评分 中 的 第 r 行 对 应 用 户 为 i、 电影 为 j ， 则 Av* 中 的 第 r 
行 中 不 为 零 的 元 素 为 从 第 j . K 列 到 第 j . K 十 K 一 1 列 : 


而 当 


V po 
Arj.K.jK+K-1 = VW 


为 已 知 数 时 的 系数 矩阵 A 的 第 r 行 中 不 为 零 的 元 素 为 从 第 i . K 列 到 第 i K 十 K 一 1 列 : 


u i 
AriK.iK+K-1 = Ui 


人 @ 调 用 lsmr0 进 行 最 小 二 乘 计算 ， 并 将 计算 结果 写 入 U。 由 于 V 的 值 只 是 假设 已 知 ， 我 们 并 
不 希望 使 用 它 作为 系数 找到 精确 的 最 小 二 乘 解 , 因此 通过 系数 maxiter 设置 计算 最 小 二 乘 解 时 的 


迭代 次 数 


， 系 数 damp 控制 解 的 大 小 。 当 它 不 为 零 时 被 称 为 正则 化 最 小 二 乘 解 。 


@ 由 于 Au 是 一 个 CSR 格式 的 稀 朴 窍 阵 ， 其 中 非 零 元 素 的 值 按照 行 的 顺序 保存 在 data 属性 


中 。 它 正 
据 。 这 里 


新 的 Au 计算 V， 并 更 新 Av。 


好 与 数组 U 平 坦 化 之 后 的 每 个 元 素 相对 应 ， 因 此 通过 Au.data 更 新 稀 玻 窍 阵 Au 中 的 数 
通过 参数 mu 控制 Au 中 元 素 变化 的 快慢 。mnu 越 大 则 Au 越 接近 U 的 值 。 接 下 来 使 用 


@ 使 用 和 V 计 算 测试 数据 的 预测 评分 ， 并 计算 与 实际 评分 数据 的 RMSE 评价 值 。 将 最 佳 
的 RMSE 评价 值 保存 在 best_rmse 中 ， 而 与 之 对 应 的 U 和 V 则 保存 在 best_U 和 best_V 中 。 

@ 由 于 对 大 型 稀疏 矩阵 进行 最 小 二 乘 运 算 会 消耗 大 量 内 存 ， 这 里 调用 gc.collect0 强 制 进行 
垃圾 回收 ， 释 放 内 存 空 间 。 

from scipy import sparse 

from scipy.sparse import linalg 

import gc 

def uv_decompose(arrays, loop_count, k, maxiter, mu, damp): 


U 


| train, v_train, r_ train, u test, v test, r test = arrays 


U = np.random.rand(nu, Kk) * 6.1 / k**0.5 © 
V = np.random.rand(nv, k) * 6.1 / k**0.5 
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idxv_col = (u train[:, None]*k + np.arange(k)).ravel() 

idx_row = np.repeat(np.arange(nr)，k) 

Av = sparse.coo matrix((V[v_train].ravel(), (idx_row, idxv_col)), 
shape=(nr, nu*k)).tocsr() ©@ 


idxu col = (v_train[:, None]*k + np.arange(k)).ravel() 
Au = sparse.coo matrix((U[u_train].ravel(), (idx_row, idxu_col)), 
shape=(nr, nv*k)).tocsr() 


best_U, best V = None, None 
best_rmse = 166.6 
rmse_list = [] 


for i in range(loop_count): 
U.ravel()[:] = linalg.lsmr(Av, r_train, maxiter=maxiter, damp=damp)[6] © 
革 Au.data[:] = Au.data[:]*(1-mu) + U[u_train].ravel()*mu @ 
1! 
V.ravel()[:] = linalg.lsmr(Au, r_train, maxiter=maxiter, damp=damp)[8] 
Av.data[:] = Av.data[:]*(1-mu) + V[v_train].ravel()*mu 


r_pred = U.dot(V.T)[u test, v test] © 
rmse = rmse_score(r_test, r_pred) 
rmse_list.append(rmse) 
if rmse < best_rmse: 

best_rmse = rmse 

best_U, best V = U.copy(), V.copy() 
gc.collect() @ 


return best U, best V, best_rmse, rmse_ list 


程序 虽然 不 复杂 ， 但 是 maxiter、k、mu 和 damp 等 参数 均 会 对 结果 有 影响 ， 因 此 找到 最 佳 
组 合 是 十 分 耗 时 的 工作 。 下 面 比较 了 damp 为 3.5 和 3.0 时 的 RMSE 和 迭代 次 数 的 关系 。 结 果 如 
图 11-13 所 示 ， 由 于 damp 的 目的 是 防止 过 度 学 习 ， 因 此 3.5 比 3.0 的 收敛 速度 慢 ， 但 RMSE 能 
收敛 到 更 小 的 值 。 


U1, V1, best_rmsel, rmsesl1 = uv_decompose(arrays, 

loop_count=26, maxiter=6, k=30, mu=0.4, damp=3.5) 
U2, V2, best_rmse2, rmses2 = UV_decompose(arrays， 

loop_count=20, maxiter=6, k=36, mu=0@.4, damp=3.0) 
print best_rmse1，best_rmse2 


8.961107139867 8.964696269664 
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pl.plot(np.arange(1, len(rmses1)+1), rmses1, label="damp=3.5") 
pl.plot(np.arange(1, len(rmses2)+1), rmses2, label="damp=3.0") 
pl.legend(loc="best") 

pl.xlabel(u" 迭 代 次 数 ") 

pl.ylabel("RMSE") 
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图 11-13 damp 系数 对 RMSE 的 影响 
11.3.5 ”使 用 Cython 和 迭代 实现 矩阵 分 解 


还 可 以 使 用 随机 梯度 下 降 法 对 矩阵 进行 分 解 。 下面 是 具体 的 计算 公式 。 和 前 面 的 方法 相同 ， 
首先 用 随机 数 初始 化 用 户 矩 阵 U 和 电影 矩阵 V。 随 机 挑选 一 个 评分 W， 它 是 用 户 i 对 电影 j 的 评 


分 。 计 算 预 测评 分 值 有 : 
kK 
fj = > Uik * Vik 
f= 


然后 计算 评分 误差 e: 
ee 二 而 一 全 
使 用 误差 e 通 过 下 面 两 个 公式 同时 更 新 Uik 和 Vik， 其 中 k = 1…K。m 为 学 习 系数 ，B 为 防止 
过 度 学 习 的 系数 。 值 得 注意 的 是 这 两 个 公式 是 同时 更 新 的 ， 因 此 第 一 个 公式 计算 的 结果 Uik 并 
不 代入 到 第 二 个 公式 中 运算 。 
Uik = Uik+n' (e: Vir— B: Uir) 
Vk = Vk+n:(e: Uir—B: Ve 
于 需要 大 量 的 循环 运算 ， 因 此 我 们 使 用 Cython 编写 迭代 程序 。uv_update0 的 参数 分 别 为 
日 户 编号 、 电 影 编号 、 评 分 、 用 户 和 矩阵 U、 电 影 矩阵 V、 学 习 系 数 和 防止 过 度 学 习 的 系数 。 


X%%cython 
#cython: boundscheck=False 
#cython: wraparound=False 


import numpy as np 


区 
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cdef double dot(double[:, ::1] x，double[:，::1] y, int i, int j): 
! cdef int k 
cdef double s = 6 
for k in range(x.shape[1]): 
s += x[i, k] * y[j, k] 
return s 


def uv_update(int[::1] userid, int[::1] movieid, double[::1] rating, 
double[:, ::1] uservalue, double[:, ::1] movievalue, 
double eta, double beta): 
! cdef int j, k 
| cdef int ratecount = rating.shape[6] 
cdef int uid, mid 
cdef double rvalue, pvalue, error 
cdef double tmp 
cdef int nk = uservalue.shape[1] 
例 for j in range(ratecount): 
uid = userid[j] 
| mid = movieid[j] 
rvalue = rating[j] 
pvalue = dot(uservalue, movievalue, uid, mid) 
error = rvalue - pvalue 
for k in range(nk): 
tmp = uservalue[uid, k] 
uservalue[uid, k] += eta * (error * movievalue[mid, k] 
- beta * uservalue[uid, k]) 
movievalue[mid, k]+= eta * (error * tmp - beta * movievalue[mid, k]) 


! 下 面 的 uv_decompose20 循 环 iter_count 次 调用 uv_update0 以 更 新 U 和 V。 在 每 次 调用 之 前 ， 
| 通过 shuffle0 打 乱用 户 编号 、 电 影 编 号 、 评 分 这 三 个 数组 的 顺序 ， 实 现 评分 的 随机 选择 。 


def uv_decompose2(arrays, k, eta, beta, iter_count): 


Utrain, v_train, r_ train, u test, v test, r test = arrays 


U = np.random.rand(nu, k) * @.1 / k**0.5 
np.random.rand(nv, k) * 6.1 / k**@.5 


best_U, best V = None, None 
| best_rmse = 166.6 
rmses = [] 
! idx = np.arange(nr) 
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for i in range(iter_count): 
np.random.shuffle(idx) 
Uv_update(u train[idx], v_train[idx], r_train2[idx], U, V, eta, beta) 
t = U.dot(V.T) 
r_pred2 = t[u test, v_test] 
rmse = rmse_score(r_ test，r_pred2) 
rmses.append(rmse) 
if best_rmse > rmse: 
best_rmse = rmse 
best U, best V = U.copy(), V.copy() 


return best U, best V, best_rmse, rmses 
下 面 绘 制 k = 30、n = 0.008、B = 0.08 的 收敛 曲线 ， 结 果 如 图 11-14 所 示 : 


np.random. seed(2) 

U3, V3, best_rmse3, rmses3 = Uv_decompose2(arrays, 30, 0.0068, 0.68, 1060) 
pl.plot(rmses3) 

idx = np.argmin(rmses3) 

pl.axvline(idx, lw=1, 1s="--") 

pl.ylabel("RMSE") 

p1.xlabel(u" 迭 代 次 数 ") 

pl.text(idx, best_rmse3 + 8.602, "%g" % best_rmse3) 


RMSE 


0 20 40 60 80 100 
选 代 次 数 


图 11-14 随机 梯度 下 降 法 的 收敛 曲线 


将 UV 分 解 得 到 的 评分 预测 加 上 前 面 的 r_pred， 就 得 到 了 最 终 的 评分 预测 r_pred3。 下 


用 Pandas 的 boxplot0 绘 制 每 个 评分 等 级 对 应 的 预测 评分 的 箱 形 图 ， 结 果 如 图 11-15 所 示 。 
横 坐 标 为 实际 评分 的 5 个 等 级 ， 每 个 盒子 表示 每 个 等 级 对 应 的 预测 评分 的 分 布 情况 。 
r_pred3 = U3.dot(V3.T)[u_test, v_test] + r_pred 


s = pd.DataFrame({"r":r test, "$\hat{r}$":r_pred3}) 
s.boxplot(column="$\hat{r}$", by="r", figsize=(12, 6)) 
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Boxplot grouped byr 


图 11-15 以 实际 评分 对 预测 评分 分 组 ， 绘 制 每 组 的 分 布 情况 


膏 尖 


114 ” 频 域 信号 处 理 


A 与 本 节 内 容 对 应 的 Notebook 为 : 11-exampleyexamples-400-fftipynb。 


FFT( 快 速 傅立叶 变换 ) 能 将 时 域 信号 转换 为 频 域 信号 。 转 换 为 频 域 信号 之 后 ， 可 以 很 方便 
地 分 析出 信号 的 频率 成 分 , 在 频 域 上 进行 处 理 , 最 终 还 可 以 将 处 理 完毕 的 频 域 信号 通过 IFFT( 逆 
变换 ) 转 换 为 时 域 信 号 ,实现 许多 在 时 域 无 法 完成 的 信号 处 理 算法 。 本 章 将 通过 许多 实例 ,简单 
地 介绍 有 关 频 域 信号 处 理 的 一 些 基础 知识 。 


11.4.1 FFT 知识 复习 


FFT 变换 是 针对 一 个 数组 的 运算 ， 数 组 的 长 度 N 通 常 是 2 的 整数 次 究 ， 例如 64、128、256 
等 。 数 值 可 以 是 实数 或 复数 ， 通 常 的 时 域 信号 都 是 实数 ， 因 此 下 面 都 以 实数 为 例 。 可 以 把 这 一 
组 实数 想象 成 对 某 个 连续 信号 按照 一 定 取样 周期 进行 取样 而 得 , 如 果 对 有 N 个 实数 的 数组 进行 
FFT 变换 ， 将 得 到 一 个 有 NN 个 复数 的 数组 ， 它 的 元 素 有 如 下 规律 : 

e 下 标 为 0 和 N/2 的 两 个 复数 的 虚数 部 分 为 0。 

e 下 标 为 1 和 Ni 的 两 个 复数 共生 ， 也 就 是 其 虚数 部 分 数值 相同 、 符 号 相反 。 

下 面 的 例子 演示 了 这 一 规律 ， 先 以 rand0 随 机 产生 有 8 个 元 素 的 数组 x， 然 后 用 仁 0 对 其 
算 之 后 ， 观 察 其 结果 为 8 个 复数 ， 可 以 看 出 结果 满足 上 面 两 条 规律 : 


[et 


x = np.random.rand(8) 
xf = np.fft.fft(x) 


print x 

print xf 

[ 8.361 6.419 8.499 8.558 6.631 6.765 6.419 8.314] 

[ 3.367+6.]j -8.644-6.651j -6.526-6.252j 6.766+6.111j -8.686+6.]j 8.766-6.111]j 
-6.526+6.252j -6.644+6.651j] 


FFT 变换 的 结果 可 以 通过 IFFT 变换 还 原 为 原来 的 值 : 


np.fft.ifft(xf) 
array([ 8.361 +0.660e+00j, 0.419 -1.032e-17j, 0.499 -1.388e-17j，68.558 -1.676e-16j， 
8.631 +0.0600e+00j,0.705 +1.146e-16j, 0.419 +1.388e-17j, 0.314 +3.379e-18j]) 


注意 ft0 的 运算 结果 实际 上 和 数组 x 相同 ， 由 于 浮 点 数 的 运算 误差 ， 出 现 了 一 些 非 常 小 的 
虚数 部 分 ， 可 以 调用 npreal0 获 取 其 中 的 实数 部 分 。 

FFT 和 IFFT 变换 并 没有 增加 或 减少 数据 的 个 数 ， 数 组 x 中 有 8 个 实数 数值 ， 而 数组 Xf 中 
其 实 也 只 有 8 个 有 效 的 数值 。 由 于 复数 共 罗 和 虚数 部 分 为 0 等 规律 ， 真 正 有 用 的 信息 保存 在 下 
标 从 0 到 N/2 的 N2+1 个 复数 中 ， 又 由 于 下 标 为 0 和 N/2 的 值 的 虚数 部 分 为 0， 因 此 只 有 N 个 
有 效 的 实数 值 。 

下 面 看 看 FFT 变换 所 得 到 的 复数 的 含义 : 
e 下 标 为 0 的 实数 表示 时 域 信号 中 的 直流 成 分 。 
e 下 标 为 i 的 复数 atbj 表 示 时 域 信 号 中 周期 为 Mi 个 取样 值 的 正弦 波 和 余弦 波 的 成 分 ,其 
中 a 表示 余弦 波形 的 成 分 ，b 表 示 正 弦 波 形 的 成 分 。 
让 我 们 通过 儿 个 例子 验证 上 述 规律 ， 下 面 对 一 个 直流 信号 进行 FFT 变换 : 


x = np.ones(8) 
np.fft.fft(x)/len(x) # 为 了 计算 各 个 成 分 的 能 量 ， 需 要 将 FFT 的 结果 除 以 FFT 的 长 度 
array([ 1.+6.j， 86.+8.j， 86.+8.j， 8.+8.j， 8.+6.j，8.+6.j，8.+6.j，8.+6.j]) 


所 谓 直流 信号 ， 就 是 其 值 不 随时 间 变 化 ， 因 此 我 们 创建 一 个 值 全 为 1 的 数组 x， 它 的 FFT 
结果 除了 下 标 为 0 的 数值 不 为 0 以 外 ， 其 余 的 都 为 0。 这 表示 时 域 信号 是 直流 的 ， 并 且 其 能 量 
为 1。 

下 面 我 们 产生 一 个 周期 为 8 个 取样 的 正弦 波 ， 然 后 观察 其 FFT 结果 : 


x = np.arange(0, 2*np.pi, 2*np.pi/8) 

y = np.sin(x) 

tmp = np.fft.fft(y)/len(y) 

print np.array_str(tmp, suppress_small=True) 

[ 8.+0.j] -86.-6.5j 86.-6.j 8.-86.j 8.+6.j 8.-6.j] 6.+6.j 90.+6.5j] 


为 了 便于 观察 结果 ,这 里 用 array_str0 将 数组 转换 字符 串 ,并 设置 suppress_small 参数 为 True， 
将 一 些 很 小 的 数值 显示 为 0。 现 在 观察 正弦 波 的 FFT 的 计算 结果 : 下 标 为 1 的 复数 的 虚数 部 分 


询 将 


这 将 
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为 -0.5， 而 我 们 产生 的 正弦 波 的 振幅 为 1， 它 们 之 间 的 关系 是 -0.5*(-2)=1。 接 下 来 看 余弦 信号 的 
FFT 结果 : 


tmp = np.fft.fft(np.cos(x))/len(x) 
print np.array_str(tmp, suppress_small=True) 
[-86.6r6.j 6.5-6.j 6.6t8.j 6.6t8.j 6.6t6.j -6.60+0.j] 6.6t6.j 6.5-6.j] 


只 有 下 标 为 1 的 复数 的 实数 部 分 为 0.5， 和 余弦 波 振幅 之 间 的 关系 是 0.5*2=1。 再 看 两 个 
例子 : 


tmp = np.fft.fft(2*np.sin(2*x))/len(x) 

print np.array_str(tmp, suppress_small=True) 

tmp = np.fft.fft(0.8*np.cos(2*x))/len(x) 

print np.array_str(tmp, suppress_small=True) 

[ 8.+6.j 86.+6.j -6.-1.j 8.-6.j 8.+6.j 8.+0.j -0.+1.j 8.-0.j] 
[-8.6+6.j -0.0+0.j] 6.4-6.j 8.6-6.j 6.6t6.j 6.6-6.j 8.4+6.j -6.6+6.j] 


上 面 产生 的 是 周期 为 4 个 取样 点 的 正弦 和 余弦 信号 , 其 FFT 的 有 效 成 分 在 下 标 为 2 的 复数 
中 ， 其 中 正弦 波 的 振幅 为 2， 其 频 域 虚数 部 分 的 值 为 -1; 余弦 波 的 振幅 为 0.8， 频 域 中 对 应 的 值 
为 04。 

如 果 将 两 个 同 频率 的 正弦 波 和 余弦 波 通过 不 同 的 系数 进行 琶 加 ,就 可 以 得 到 同样 频率 的 各 
种 相位 的 余弦 波 。 因 此 我 们 可 以 这 样 来 理解 频 域 中 的 复数 : 

e 复数 的 模 (绝对 值 ) 的 两 倍 为 对 应 频率 的 余弦 波 的 振幅 。 

e 复数 的 辐 角 表示 对 应 频率 的 余弦 波 的 相位 。 

最 后 再 看 一 个 例子 : 


x = np.arange(0, 2*np.pi, 2*np.pi/128) 

y = 0.3*np.cos(x) + 0.5*np.cos(2*x+np.pi/4) + 8.8*np.cos(3*x-np.pi/3) 
yf = np.fft.fft(y)/len(y) 

print np.array_str(yf[:4], suppress_small=True) 
print np.abs(yf[1]), np.rad2deg(np.angle(yf[1])) # 
print np.abs(yf[2]), np.rad2deg(np.angle(yf[2])) # 
# 周期 为 42.667 取样 点 的 余弦 波 的 振幅 和 相位 

print np.abs(yf[3]), np.rad2deg(np.angle(yf[3])) 

[ 8.608+6.j 8.156+6.j 86.177+6.177j 6.266-6.346j] 
8.15 2.48486834489e-15 

68.25 45.6 

9.4 -69.6 


期 为 128 取样 点 的 余弦 波 的 振幅 和 相位 
期 为 64 取样 点 的 余弦 波 的 振幅 和 相位 


这 里 np.angle0 计 算 复数 的 辐 角 ,得 到 的 是 弧度 ,通过 np.rad2deg0 将 弧度 变换 为 角度 值 。 在 
这 个 例子 中 产生 了 三 个 频率 、 振 幅 和 相位 各 不 相同 的 余弦 波 : 
e。 周期 为 128 个 取样 点 的 余弦 波 的 相位 为 0， 振幅 为 0.3。 


的 认识 。 


e。 周期 为 64 个 取样 点 的 余弦 波 的 相位 为 45 度 (r/4)， 振 幅 为 0.5。 
e@ 周期 为 42.66(128/3.0) 个 取样 点 的 余弦 波 的 相位 为 -60( 一 mn/3) 度 ， 振 幅 为 0.8。 
对 照 ytI、yft2]、yf[3] 的 复数 振幅 和 辐 角 ， 读 者 应 该 对 FFT 结果 中 的 每 个 数值 都 有 很 清晰 


FFT 的 运算 效率 由 FET 长 度 N 的 质 因子 决定 ，N 能 被 分 解 得 越 小 ， 运 算 速 度 越 快 。 例如 当 


N 为 素数 时 ，FEFT 的 运算 效率 达到 最 低 。 下 面 的 程序 比较 4096 点 FFT 和 4093 点 FFT 运 算 的 时 


间 ， 
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于 4096 是 2 的 整数 次 究 ， 而 4093 是 一 个 素数 ， 因 此 它们 的 运算 时 间 相 差 非常 大 : 


xl = np.random.random(4696) 
x2 = np.random.random(4693) 


%timeit np.fft.fft(x1) 

%timeit np.fft.fft(x2) 

16666 loops, best of 3: 183 hs per loop 
16 loops, best of 3: 69.6 ms per loop 


训 将 


在 


- 节 的 演示 中 ， 通 过 ifft0 可 以 将 频 域 信号 转换 回 时 域 信号 ， 这 种 转换 是 精确 的 。 下 面 的 


程序 完成 类 似 的 频 域 信号 转 时 域 信号 的 计算 。 不 过 可 以 由 用 户 选择 一 部 分 频 域 信号 转换 为 时 域 
言 号 ， 这 样 转换 的 结果 和 原始 的 时 域 信号 会 有 误差 ， 使 用 的 频率 信息 越 多 ， 此 误差 越 小 。 通 过 
此 程序 可 以 直观 地 观察 到 多 个 余弦 波 的 倒 加 是 如 何 逐 步 逼 近 任意 时 域 信 号 的 ， 图 11-16 显示 了 


使 有 


] FFT 计算 的 三 角 波 频 谱 。 


def triangle_wave(size): © 
x = np.arange(86，1，1.6/size) 
y = np.where(x<8.5，x，96) 
y = np.where(x>=8.5，1-x，y) 
return x，y 


# 取 FFT 计算 结果 bins 中 的 前 n 项 进行 合成 ， 返 回合 成 结果 ， 计 算 loops 个 周期 的 波形 
def fft_combine(bins, n, loops=1): @ 
length = len(bins) * loops 
data = np.zeros(length) 
index = loops * np.arange(86，]length，1.6) / length * (2 * np.pi) 
for k, p in enumerate(bins[:n]): 
if k != 6: p *= 2 # 除去 直流 成 分 之 外 ， 其 余 的 系数 都 *2 
data += np.real(p) * np.cos(k*index) # 余弦 成 分 的 系数 为 实数 部 分 
data -= np.imag(p) * np.sin(k*index) # 正弦 成 分 的 系数 为 负 的 虚数 部 分 
return index, data 


fft_size = 256 
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# 计算 三 角 波及 其 FFT 
x, y = triangle_wave(fft_size) 
fy = np.fft.fft(y) / fft_size 


# 绘制 三 角 波 的 FFT 的 前 28 项 的 振幅 ， 由 于 不 含 下 标 为 偶数 的 值 均 为 6， 因 此 取 

| # 1og 之 后 无 穷 小 ， 无 法 绘图 ， 用 np.clip 函数 设置 数组 值 的 上 下 限 ， 保 证 绘图 正确 

! fig, axes = pl.subplots(2, 1, figsize=(8, 6)) 
axes[6].plot(np.clip(26knp.log16(np.abs(fy[:26]))，-1286，126)，"o") 
axes[6].set_xlabel(u" 频 率 窗口 (frequency bin)") 
axes[6].set_ylabel(u" 幅 值 (dB)") 


# 绘制 原始 的 三 角 波 和 用 正弦 波 逐 级 合成 的 结果 ， 使 用 的 取样 点 为 x 轴 坐 标 
axes[1].plot(y，label=u" 原 始 三 角 波 "，linewidth=2) 

foc iin [90335579]: 

| index，data = fft_combine(fy，i+1，2) # 计算 两 个 周期 的 合成 波形 
实 | axes[1].plot(data, label =“N=%s”% 1i，alpha=6.6) 

| axes[1].legend(loc="best") 
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图 11-16 三 角 波 的 频谱 (上 )， 使 用 频谱 中 的 部 分 频率 重建 的 三 角 波 (下 ) 


: @triangle_wave0 产 生 一 个 周期 的 三 角 波形 ， 这 里 使 用 np.where0 计 算 分 段 函数 。tiangle0 返 

， 。 回 两 个 数组 ， 分 别 表示 X 轴 和 立轴 的 值 。 后 面 的 计算 和 绘图 不 使 用 X 轴 坐 标 ， 而 是 直接 用 取 
样 序号 作为 X 轴 坐标 .Bfft_combine0 使 用 FFT 结 果 bins 中 的 前 n 个 数据 重新 合成 时 域 信 号 ,loops 
参数 指定 计算 的 周期 数 。 通 过 这 个 例子 可 知 ， 合 成 时 域 信 号 时 ， 使 用 的 频率 越 多， 波形 越 接近 
原始 的 三 角 波 。 


658 ， 


接 下 来 再 看 看 合成 方 波 信 号 。 由 于 方 波 的 波形 中 存在 跳 变 ， 因此 用 有 限 个 正弦 波 合成 的 方 
波 在 跳 变 处 出 现 拌 动 现象 , 如 图 11-17 所 示 , 用 正弦 波 合成 的 方 波 的 收敛 速度 比 三 角 波 慢 得 多 。 
计算 方 波 的 波形 可 以 采用 下 面 的 square_wave0: 


def square wave(size): 
x = np.arange(86，1，1.6/size) 
y = np.where(x<8.5，1.9，6) 
return x, y 


x, y = Square_wave(fft_size) 
fy = np.fft.fft(y) / fft_size 


fig, axes = pl.subplots(2, 1, figsize=(8, 6)) 
axes[6].plot(np.clip(26knp.1log16(np.abs(fy[:26]))，-1286，126)，"o") 
axes[6].set_xlabel(u" 频 率 窗口 (frequency bin)") 
axes[6].set_ylabel(u" 幅 值 (dB)") 
axes[1].plot(y，label=u" 原 始 方 波 "，linewidth=2) 
For i in [101355779]: 
index，data = fft_combine(fy，i+1，2) # 计算 两 个 周期 的 合成 波形 
axes[1].plot(data, label = "N=%s" % i) 
axes[1].legend(loc="best") 
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图 11-17 方 波 的 频谱 ， 合 成 方 波 在 跳 变 处 出 现 抖动 
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本 书 提供 了 三 角 波 和 方 波 的 FFT 演示 程序 , 使 用 它们 可 以 交互 式 地 观察 各 种 三 角 波 和 方 波 
的 频谱 及 其 正弦 合成 的 近似 波形 。 制作 界面 是 一 件 很 费 工 夫 的 事情 , 幸好 有 TraitsUI 库 的 帮忙 ， 
200 多 行 代码 就 可 以 制作 出 如 图 11-18 所 示 的 效果 。 
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图 11-18 波形 频谱 观察 器 界面 


实 | 
例 ， (人 个 scpy2.examples.ff_demo: 使 用 该 程序 可 以 交互 式 地 观察 各 种 三 角 波 和 方 波 的 频谱 及 其 
: 正弦 合成 的 近似 波形 。 
程序 中 已 经 给 出 了 详细 的 注释 ， 相 信 读 者 能 够 读 懂 并 掌握 这 类 程序 的 写法 。 
11.4.3 ”观察 信号 的 频谱 


将 时 域 信号 通过 FFT 转换 为 频 域 信号 之 后 , 将 其 各 个 频率 分 量 的 幅 值 绘制 成 图 , 可 以 很 直 
观 地 观察 信号 的 频谱 。 下 面 的 程序 能 完成 这 一 任务 : 


sampling rate, fft_size = 8666，512 上 
t = np.arange(6，1.96，1.6/sampling_rate) @ 
x = np.sin(2*np.pi*156.25*t) + 2*np.sin(2*np.pi*234.375*t) © 


def show fft(x): 
xs = x[:fft_size] 
xf = np.fft.rfft(xs)/fft_size @ 
freqs = np.linspace(6，sampling_rate/2，fft_size/2+1) © 
xfp = 26*np.1og16(np.clip(np.abs(xf)，1le-26，1lel166)) © 
pl.figure(figsize=(8,4)) 
pl.subplot(211) 
pl.plot(t[:fft_size], xs) 
pl.xlabel(u" 时 间 ( 秒 )") 
pl.subplot(212) 
pl.plot(freqs, xfp) 
pl1.xlabel(u" 频 率 (Hz)") 


pl.subplots adjust(hspace=8.4) 


show fft(x) 


图 11-19 为 程序 的 输出 , 可 以 看 到 频谱 中 除了 两 个 峰值 之 外 , 其 余 的 频率 成 分 都 接近 于 0。 
如 果 放 大 频谱 中 的 两 个 峰值 ， 可 以 看 到 其 值 分 别 为 : 


print xfp[[16，15]] 
[ -6.621e+68 -9.643e-16] 
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图 11-19 156.25Hz 和 234.375Hz 的 波形 (上 ) 和 频谱 (下 ) 


即 156.25Hz 的 幅 值 大 小 为 -6dB， 而 234.375Hz 的 幅 值 大 小 为 dB。 下 面 详细 介绍 程序 的 各 
个 部 分 : 
@ 首 先 定 义 了 两 个 常数 sampling_rate 和 ff_size， 它 们 分 别 表示 数字 信号 的 取样 频率 和 FFT 
的 长 度 。@ 然 后 调用 arange0 产 生 1 秒 钟 的 取样 时 间 ，t 中 的 每 个 数值 直接 表示 取样 点 的 时 间 ， 
因此 其 间隔 为 取样 周期 1/sampline_rate。 
人 @ 用 取样 时 间 数 组 t 可 以 很 方便 地 计算 出 波形 数据 ， 这 里 计算 的 是 两 个 正弦 波 的 车 加 ， 一 
个 频率 是 156.25Hz， 另 一 个 是 234.375Hz。 为 什么 选择 这 两 个 奇怪 的 频率 呢 ? 因为 这 两 个 频率 
的 正弦 波 在 512 个 取样 点 中 正好 有 整数 个 周期 。 只 有 整数 个 周期 的 波形 的 FFT 结果 能 精确 地 反 
决 其 频率 。 
假设 取样 频率 为 f, 取 波 形 中 的 N 个 数据 进行 FFT 变换 。 当 这 N 点 数据 包含 整数 个 周期 的 
波形 时 ，FFT 所 计算 的 结果 是 精确 的 。 因 此 能 精确 计算 的 波形 的 周期 是 : n : fs/N。 对 于 8kHz 
的 取样 频率 、512 点 的 FFT 来 说 ，8000/512.0=15.625Hz， 即 只 能 精确 表示 15.625Hz 的 整数 倍 频 
率 。156.25Hz 和 234.375Hz 正好 是 其 10 倍 和 15 倍 。 

@ 这 里 使 用 riftO 对 从 波形 数据 x 中 截取 伍 size 个 取样 点 进行 FFT 计算 , 所 得 到 的 结果 不 
括 共 思 部 分 ,根据 FFT 计 算 公式 ,为 了 正确 显示 波形 能 量 , 还 需要 将 结果 除 以 FFT 的 长 度 ft_size。 

对 于 长 度 为 N 的 FFT 运算 ，rfft0 返 回 N/2 + 1 个 复数 ， 分 别 表示 从 0 到 fs/2 的 各 点 频率 
成 分 。@ 因 此 可 以 通过 linspace0 计 算出 rft0 的 返回 值 中 每 个 数值 对 应 的 真正 频率 。 也 可 以 使 
NumPy 提供 的 ffttreq0 函 数 ， 它 的 第 一 个 参数 为 FFT 的 长 度 ， 第 二 个 参数 为 信号 的 取样 周期 。 
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它 返 回 与 FFT 结果 对 应 的 全 _size 个 频率 ， 前 半 部 分 频率 大 于 等 于 0， 后 半 部 分 频率 为 负 值 。 其 
中 频率 为 负 值 的 部 分 也 可 以 将 其 频率 理解 为 该 负 值 加 上 取样 频率 。 此 外 ，rfftfreqO 计 算 与 rfft0 
结果 对 应 的 频率 。 


freqs = np.fft.fftfreq(fft_size，1.6/sampling_rate) 
for i in [8, 1, fft size//2-1, fft_size//2, fft_size//2+1, fft_size-2, fft_size-1]: 
print ME freqs[i] 


0 6.6 

二 495.025 

255 3984.375 
256 -4666.6 
257 -3984.375 
516 -31.25 
511 -15.625 


@ 最 后 计算 每 个 频率 分 量 的 幅 值 , 并 将 其 转换 为 以 dB 度量 的 值 .为 了 防止 0 幅 值 造成 log100 
无 法 计算 ， 调 用 np.clip0 对 Xf 的 幅 值 进行 上 下 限 处 理 。 
下 面 看 看 不 能 在 ff_size 个 取样 中 形成 整数 个 周期 的 波形 的 频谱 : 
x = np.sin(2*np.pi*2866*t) + 2*np.sin(2*np.pi*366*t) 
show_fft(x) 


得 到 的 结果 如 图 11-20 所 示 。 这 次 得 到 的 频谱 不 再 是 两 个 完美 的 峰值 ， 而 是 两 个 峰值 频率 
周围 的 频率 都 有 能 量 。 这 显然 和 两 个 正弦 波 的 县 加 波形 的 频谱 有 区 别 。 本 来 应 该 属于 200Hz 和 
300Hz 的 能 量 分 散 到 了 周围 的 频率 中 ， 这 种 现象 被 称 为 频谱 泄漏 。 出 现 频 谱 泄漏 的 原因 在 于 
fft_size 个 取样 点 无 法 放下 整数 个 200Hz 和 300Hz 的 波形 。 
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图 11-20 非 完整 周期 200Hz 和 300Hz) 的 正弦 波 经 过 FFT 变换 之 后 出 现 频 谱 沪 漏 


我 们 只 能 在 有 限 的 时 间 段 中 对 信号 进行 测量 ,无 法 知道 测量 范围 之 外 的 信号 。 因 此 只 能 对 
测量 范围 之 外 的 信号 进行 假设 。 而 傅立叶 变换 的 假设 很 简单 : 测量 范围 之 外 的 信号 是 所 测量 到 
的 信号 的 重复 。 
岗 在 考虑 512 点 FFT, 从 信号 中 取出 的 512 个 数据 就 是 FFT 的 测量 范围 , 它 计算 的 是 这 512 
个 数据 一 直 重 复 的 波形 的 频谱 。 显 然 ， 如 果 512 个 数据 包含 整数 个 周期 ， 那 么 得 到 的 结果 就 是 
原始 信号 的 频谱 ; 而 如 果 不 是 整数 周期 ， 得 到 的 频谱 就 是 如 图 11-21 所 示 的 波形 的 频谱 。 由 于 
波形 的 前 后 不 是 连续 的 ， 存 在 跳 变 ， 而 跳 变 处 有 着 非常 广泛 的 频谱 ， 因 此 FFT 结果 中 出 现 频谱 
汇 漏 。 


SS 


pl.figure(figsize=(6, 2)) 

t = np.arange(6，1.6，1.6/8666) 
x = np.sin(2*np.pi*5@*t)[:512] 
pl.plot(np.hstack([x, x, x])) 
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图 11-21 50Hz 正弦 波 的 512 点 FFT 所 计算 频谱 的 实际 波形 


1. 窗 函 数 


为 了 减少 FFT 所 截取 的 数据 段 前 后 的 跳 变 ， 可 以 把 数据 与 一 个 窗 函 数 相 乘 ， 使 得 其 前 后 数 
据 能 平滑 过 渡 。 例 如 ， 常 用 的 Hann 窗 函 数 的 定义 如 下 : 


w(n) = 0.5 ( —cos 9) 


其 中 N 为 窗 函 数 的 点 数 ， 图 11-22 是 一 个 512 点 Hann 窗 的 曲线 : 


from scipy import signal 
pl.figure(figsize=(6, 2)) 
pl.plot(signal.hann(512)) 
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“0 100 200 300 400 500 600 
图 11-22 Hann 窗 函 数 


窗 函 数 都 在 scipy.signal 库 中 定义 ， 它 们 的 第 一 个 参数 为 点 数 N。 可 以 看 出 Hann 窗 函 数 是 
完全 对 称 的， 也 就 是 说 第 0 点 和 第 511 点 的 值 完 全 相同 ， 都 为 0。 如 果 将 这 样 的 窗 函 数 与 信号 
数据 相 乘 , 结果 中 会 出 现 前 后 两 个 连续 的 0, 这 样 会 对 FFT 变换 之 后 的 信号 频谱 有 一 定 的 影响 。 

为 了 解决 连续 0 值 的 问题 ，hann 函数 提供 了 sym 参 数 ， 如 果 其 值 为 0， 则 产生 一 个 N+1 点 
的 Hann 窗 函 数 ， 并 含 去 最 末端 的 数值 ， 这 样 得 到 的 窗 函 数 就 适合 于 周期 信号 了 : 


print signal.hann(8) 

print signal.hann(8，sym=6) 

[ 8. 9.188 6.611 6.95 6.95 6.611 6.188 9. ] 
[ 6. 0.146 6.5 8.854 1. 8.854 98.5 8.146] 


区 


50Hz 正弦 波 与 窗 函 数 乘积 之 后 的 周期 重复 波形 如 图 11-23 所 示 : 


pl.figure(figsize=(6, 2)) 

t = np.arange(6，1.6，1.6/8666) 

x = np.sin(2*np.pi*5@*t)[:512] * signal.hann(512，sym=6) 
pl.plot(np.hstack([x, x, x])) 
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图 11-23 加 Hann 窗 的 50Hz 正弦 波 的 512 点 FFT 所 计算 的 实际 波形 


回 到 前 面 的 例子 ， 将 200Hz 和 300Hz 的 全 加 波形 与 Hann 窗 相 乘 之 后 再 计算 其 频谱 ， 得 到 
如 图 11-24 所 示 的 频谱 图 。 


t = np.arange(86，1.6，1.6/sampling_rate) 
x = np.sin(2*np.pi*266*t) + 2*np.sin(2*np.pi*366+*t) 


xs = x[:fft_size] 
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ys = xs * signal.hann(fft_size，sym=6) 


xf = np.fft.rfft(xs)/fft_size 

yf = np.fft.rfft(ys)/fft_size 

freqs = np.linspace(@, sampling rate/2, fft_size/2+1) 
xfp = 26+np.1og16(np.clip(np.abs(xf)，1le-26，1le166)) 
yfp = 269xnp.1og16(np.clip(np.abs(yf)，1le-29，1el166)) 
pl.figure(figsize=(8,4)) 
pl1.plot(freqs，xfp，1abel=u" 和 矩形 窗 ") 

pl.plot(freqs, yfp，label=u"hann 窗 ") 

pl.legend() 

pl.xlabel(u" 频 率 (Hz)") 


a = pl.axes([.4, .2, .4, .4]) 
a.plot(freqs，xfp，label=u" 答 形 窗 ") 
a.plot(freqs, yfp，label=u"hann 窗 ") 
a.set_xlim(1060, 460) 

a.set ylim(-40, 8) 
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图 11-24 加 Hann 窗 前 后 的 频谱 ，Hann 窗 能 降低 频谱 泄漏 


可 以 看 到 与 Hann 窗 乘积 之 后 的 信号 的 频 
有 所 降低 。 这 是 因为 Hann 窗 本 身 有 一 定 的 能 量 衰减 : 

np.mean(signal.hann(512, sym=8)) 

8.5 


;能 量 更 加 集中 于 200Hz 和 300Hz， 但 是 其 能 量 


如 果 需 要 严格 保持 信号 的 能 量 ， 还 需要 在 与 Hann 窗 相 乘 之 后 再 把 信号 扩大 一 倍 。 


2. 频谱 平均 


对 于 频谱 特性 不 随时 间 变 化 的 信号 ， 例 如 引擎 、 压 缩 机 等 机 器 噪声 ， 可 以 对 其 进行 长 时 间 


的 采样 ， 然 后 分 段 进 行 FFT 计算 ,最 后 对 每 个 频率 分 量 的 幅 值 求 平均 值 ， 就 可 以 准 太 
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号 的 频谱 。 下 面 的 程序 完成 这 一 计算 : 

def average fft(x, fft_size): 
n = len(x) // fft_size * fft_size 
tmp = x[:n].reshape(-1, fft_size) 0 
tmp *= signal.hann(fft_size, sym=0) © 
xf = np.abs(np.fft.rfft(tmp)/fft_size) © 
avgf = np.mean(xf，axis=6) 
return 26xnp.1og16(avgf) 


average_fft(x, fft_size) 对 数组 x 进行 ff_size 点 FFT 运算 ， 并 返回 以 dB 为 度量 的 平均 幅 值 。 
由 于 x 的 长 度 可 能 不 是 ff_size 的 整数 倍 ，@ 因 此 首先 将 其 缩短 为 ff_size 的 整数 倍 ， 然 后 
reshape0 将 其 转换 成 一 个 二 维 数组 tmp。tmp 的 第 1 轴 的 长 度 为 ff._size。 

@ 将 tmp 数组 的 第 1 轴 上 的 数据 和 Hann 窗 函 数 相 乘 。 旨 调用 rfft0 对 tmp 数组 中 的 每 行 数据 
进行 FET 计算 ， 并 求 其 幅 值 。@ 最 后 ， 用 mean0 对 xf 沿 着 第 0 轴 进 行 平均 ， 这 样 就 得 到 了 每 个 
频率 分 量 的 平均 幅 值 。 

图 11-25 是 利用 average_fft0 计 算 随 机 数 序列 频谱 的 例子 。 


卉 


x = np.random.randn(166666) 

xf = average_fft(x, 512) 
pl.figure(figsize=(7,3.5)) 
pl.plot(xf) 
pl1.xlabel(u" 频 率 窗口 (Frequency Bin)") 
pl.ylabel(u" 幅 值 (dB)") 
pl.xlim([8,257]) 
pl.subplots_adjust(bottom=8.15) 
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图 11-25 白色 噪声 的 频谱 接近 水 平 直线 (注意 Y 轴 的 范围 ) 


可 以 看 到 随机 噪声 的 频谱 接近 一 条 水 平 直 线 ， 也 就 是 说 每 个 频率 窗口 的 能 量 都 相同 ， 这 种 
噪声 被 称 作 白 噪声 。 如 果 让 白 噪声 通过 一 个 IIR 低 通 滤波 器 ， 绘 制 其 输出 信号 的 平均 频谱 ， 就 


能 够 观察 到 IIR 滤波 器 的 频率 响应 特性 。 下 面 的 程序 利用 idesign0 设 计 一 个 8kHz 取样 的 kHz 
的 ChebyshevI 型 低 通 滤波 器 ,iirdesign0 需 要 用 正规 化 的 频率 ( 取 值 范围 为 0 一 D, 然后 调用 filtilt0 
对 和 白色 噪声 信号 进行 低 通 滤波 。 如 果 用 average_fft0 计 算 滤波 器 输出 信号 的 平均 频谱 ,将 得 到 如 
图 11-26 所 示 的 频谱 图 。 


b, a = signal.iirdesign(1688/4660.06,，1160/4660.06,， 1, 460, 8,，"cheby1") 
x = np.random.randn(166666) 

y = signal.filtfilt(b, a, x) 

yf = average fft(y, 512) 

pl.figure(figsize=(7, 3.5)) 

pl.plot(yf) 

pl.xlabel(u" 频 率 窗口 (Frequency Bin)") 

pl.ylabel(u" 幅 值 (dB)") 

pl.xlim(8, 257) 

pl.subplots_adjust(bottom=8.15) 
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图 11-26 经 过 低 通 滤 波 器 的 白 噪声 的 频谱 
3. 谱 图 


虽然 使 用 FET 能 够 观察 信号 的 频 域 特性 ,但 却 完全 形 失 了 信和 号 在 时 间 轴 上 的 信息 。 因 此 前 
面 所 介绍 的 观察 信号 频谱 的 方法 只 适合 于 频率 特性 不 随时 间 变 化 的 情况 。 当 信号 频率 随时 间 变 
化 时 ， 为 了 既 能 观察 信号 频率 又 能 观察 其 随时 间 的 变化 ， 可 以 使 用 短 时 距 傅 里 叶 变换 (STFT)。 

STFT 算法 所 得 到 的 结果 被 称 为 谱 图 (Spectrogram)。 谱 图 的 模 轴 表示 时 间 而 纵 轴 表示 频率 ， 
谱 图 上 每 点 的 值 表示 信号 在 此 点 的 能 量 。STFT 算法 其 实 很 简单 :， 对 信号 分 段 进 行 FFT 处 理 ， 
每 一 次 处 理 的 结果 都 是 谱 图 中 的 一 列 。 每 段 信 号 的 长 度 越 短 ， 时 间 轴 上 的 精度 越 高 ， 而 频率 轴 
上 的 精度 就 越 低 ， 反 过 来 也 是 一 样 。 时 间 轴 和 频率 轴 上 的 分 辩 率 是 一 对 不 可 调和 的 矛盾 ， 根 据 
傅立叶 变换 的 不 确定 原理 ， 我 们 不 能 指望 同时 获得 频率 和 时 间 的 高 分 辨 率 。 

下 面 是 绘制 频率 扫描 波 的 谱 图 的 程序 ， 效 果 如 图 11-27 所 示 。 通 过 此 图 可 以 很 直观 地 观察 
到 信号 的 频率 随 着 时 间 而 逐渐 变 高 ， 并 且 是 呈 指 数 增长 的 。 


性 
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sampling_rate = 8666.6 
fft_size = 1624 

step = fft_size/16 
time = 2 


t = np.arange(0, time, 1/sampling_rate) 


sweep = signal.chirp(t, fe@=160, t1 = time, f1=0.8*sampling rate/2, method="logarithmic") 


pl.specgram(sweep, fft_size, sampling rate, noverlap = 1624-step) 
pl.xlabel(u" 时 间 ( 秒 )") 
pl1.ylabel(u" 频 率 (Hz)") 


4000 
3500 
3000 
2500 
2000 


频率 (Hz) 


1500 
1000 


1.0 
时 间 ( 秒 ) 


图 11-27 频率 扫描 波 的 谱 图 


这 里 使 用 matplotlib 提供 的 绘制 谱 图 的 函数 specgram0， 其 第 一 个 参数 是 表示 信和 号 的 数组 ， 
是 连续 两 块 数据 之 间 


第 二 个 参数 是 FFT 的 长 度 ， 第 三 个 参数 是 信号 的 取样 频率 。noverlap 参 类 


重 登 部 分 的 长 度 ， 该 参数 越 接近 FFT 的 长 度 ，FFT 运算 的 次 数 越 多 ， 时 间 御 


specgram0 还 有 许多 其 他 的 关键 字 参 数 ， 请 读者 阅读 其 函数 文档 以 了 解 详 红 


于 


I 上 的 精度 也 越 大 。 
法 。 


本 书 提供 了 一 个 用 PyAudio、TraitsUI 等 制作 的 谱 图 观察 的 程序 。 它 实时 地 从 声卡 读 入 声音 


数据 ， 并 绘制 出 声音 信号 的 时 间 波 形 、 频 谱 以 及 谱 图 。 由 于 本 程序 对 计算 相 


请 读者 在 较 快 的 机 器 上 运行 本 程序 。 另 外 , 为 了 计算 效率 , 程序 中 没有 使 


目 寻 


是 程序 的 界面 截图 。 


的 配置 要 求 较 高 ， 
E 芝 处理 。 图 11.28 


oo scpy2.examples.spectrogram_realtime: 实时 观察 声音 信号 谱 图 的 演示 程序 ,使 用 TraitsUI、 


回 晤 pyAudio 等 库 来 实现 。 


o 
四 
四 
a 
四 
引 
-| 


Eenscsidsvsb .sy 
| . : | 


从 OO 十 固 国 7 


Figure: 401, 406 


图 11-28 使 用 TraitsUI 制作 的 实时 观察 声音 信号 谱 图 的 界面 
4. 精确 测量 信号 频率 


FFT 的 频率 分 辨 率 可 以 通过 “取样 频率 /FFT 长 度 ” 计 算 ， 若 仅 根据 频谱 峰值 的 位 置 测 量 信 
号 频率 ， 则 为 了 精确 测量 只 能 提高 FFT 的 长 度 。 本 小 节 介绍 一 种 使 用 FFT 结果 中 的 相位 信息 ， 
在 不 增加 FFT 长 度 的 情况 下 精确 测量 频率 的 方法 。 

下 面 首先 创建 一 个 包含 三 个 频率 44Hz、150Hz 和 330Hz， 以 及 白色 噪声 的 测试 信号 x。 其 
取样 频率 为 8000Hz， 长 度 为 2400 点 。 如 果 使 用 频谱 峰值 测量 频率 ， 则 频率 的 最 高 分 辨 率 为 
8000/2400=3.33Hz。 


def make_wave(amp, freq, phase, tend, rate): 
period = 1.6 / rate 
t = np.arange(0, tend, period) 
x = np.zeros_like(t) 
for a, f, p in zip(amp, freq, phase): 
x += a * np.sin(2*np.pi*f*t + p) 
return t, x 


RATE = 8666 
t, x = make_wave([1，2，68.5]，[44，156，336]，[1，1.4，1.8]，8.3，RATE) 
x += np.random.randn(len(x)) 


下 面 用 1024 点 FFT 计算 频谱 峰值 对 应 的 频率 。 峰 值 需要 满足 两 个 条 件 : @ 可 以 使 用 
signalargrelmaxO 计 算 局 域 最 大 值 。 其 order 参数 指定 比较 窗口 的 大 小 ，3 表示 峰值 需要 比 其 左右 
相 邻 的 3 个 值 都 大 。@ 峰 值 需 要 大 于 平均 值 的 3 倍 ， 这 样 可 以 噜 除 由 白色 噪声 产生 的 微小 局 域 
峰值 。 
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FFT_SIZE = 1624 
spect1 = np.fft.rfft(x[:FFT_SIZE] * np.hanning(FFT_SIZE)) 
freqs = np.fft.fftfreq(FFT_SIZE，1.6/RATE) 


bin width = freqs[1] - freqs[6] 


amp_spect1 = np.abs(spect1) 

loc, = signal.argrelmax(amp_spect1, order=3) © 
mask = amp_spect1[loc] > amp_specti.mean() * 3 四 
loc = loc[mask] 

peak_freqs = freqs[loc] 

print "bin width:", bin width 

print "Peak Frequencies:", peak freqs 

bin width: 7.8125 

Peak Frequencies: [ 46.875 148.438 328.125] 


可 以 看 出 峰值 的 频率 与 实际 的 频率 相 比 有 近 3Hz 的 误差 。 利用 相位 信息 可 以 减 小 检测 频率 
的 误差 。 为 了 利用 相位 信息 ， 我 们 延 时 256 个 取样 之 后 再 次 计算 信号 的 频谱 。256 个 取样 值 相 
当 于 延 时 了 dt = 256 / 8000 = 0.032 秒 。 计 算 两 次 FFT 结果 中 频谱 峰值 对 应 的 相位 ， 并 计算 相位 
差 值 phase_delta。 如 果 在 At 时 间 之 内 ， 相 位 变化 了 A6， 则 频率 可 以 根据 如 下 公式 计算 ; 
EL Ag 十 2nTr ea 
2nAt 人 
由 于 旋转 一 圈 之 后 ， 相 位 完全 相同 ， 因 此 在 At 时 间 内 ， 相 位 变化 A6 的 频率 有 无 数 个 ， 它 是 
-个 等 差 数 列 。 只 需要 找 出 该 等 差 数 列 中 与 根据 频谱 峰值 获得 的 频率 最 接近 的 那个 频率 即 可 。 
下 面 首先 计算 峰值 处 前 后 两 次 FFT 的 相位 差 : 


COUNT = FFT_SIZE//4 
dt = COUNT / 8000.0 


spect2 = np.fft.rfft(x[COUNT:COUNT+FFT_SIZE] * np.hanning(FFT_SIZE)) 


phasel = np.angle(spect1[loc]) 
phase2 = np.angle(spect2[loc]) 


phase_delta = phase2 - phasel 
print phase delta 
[ 2.595 -1.29 -2.899] 


: 然后 利用 相位 差 计算 信号 中 各 个 峰值 的 频率 。@ 为 了 减少 运算 次 数 ， 首 先 利用 频谱 峰值 中 
”的 最 高 频率 计算 n 的 最 大 可 能 取 值 max_n。@ 利 用 广播 运算 ， 计 算 各 个 相位 差 值 所 对 应 的 可 能 
的 频率 possible_freqs。 合 找到 可 能 频率 中 与 峰值 频率 最 接近 的 那个 作为 信号 的 频率 。 

可 以 看 到 结果 非常 接近 信号 的 真实 频率 ， 由 于 存在 白 噪 声 ， 相 位 差 也 存在 较 小 的 误差 ， 因 
此 最 终 计算 的 信号 频率 也 存在 误差 。 


max_n = (peak_freqs.max() + 3*bin width) * dt © 
n = np.arange(max_n) 


possible freqs = (phase delta + 2*np.pi*n[:, None]) / (2 * np.pi * dt) @ 


idx = np.argmin(np.abs(peak_freqs - possible freqs)，axis=6) © 
peak_freqs2 = possible freqs[idx, np.arange(len(peak_freqs))] 
print “Peak Frequencies:", peak_freqs2 

Peak Frequencies: [ 44.155 149.833 329.33 ] 


11.4.4” 卷 积 运算 


言 号 x 经 过 系统 h 之 后 的 输出 y 是 x 和 h 的 卷 积 ， 虽 然 卷 积 的 计算 方法 很 简单 ， 但 是 当 x 和 h 都 
很 长 6 时候 卷 积 计算 是 非常 耗费 时 间 的 。 因 此 对 于 响应 时 间 很 长 的 系统 h， 需 要 找到 比 直接 
计算 卷 积 更 快 的 方法 。 
信号 系统 理论 中 有 这 样 一 个 规律 : 时 域 的 卷 积 等 于 频 域 的 乘积 ， 因 此 要 计算 时 域 的 卷 积 ， 
可 以 将 时 域 信号 转换 为 频 域 信 号 , 进行 乘积 运算 之 后 再 将 结果 转换 为 时 域 信号 , 实现 快速 卷 积 。 
1. 快速 卷 积 


由 于 FFT 运算 可 以 高 效 地 将 时 域 信号 转换 为 频 域 信号 ， 其 运算 的 复杂 度 为 O(NlogN)， 因 此 
三 次 FFT 运 算 加 一 次 乘积 运算 的 总 复杂 度 仍然 为 0(NlogN) 级 别 , 而 卷 积 运算 的 复杂 度 为 O(N?)， 
显然 通过 FFT 计算 卷 积 要 比 直接 计算 快 得 多 。 这 里 假设 需要 卷 积 的 两 个 信号 的 长 度 都 为 N。 
日 是 有 一 个 问题 : FFT 运算 假设 其 所 计算 的 信号 为 周期 信号 ， 因 此 通过 上 述 方法 计算 出 的 
结果 实际 上 是 两 个 信号 的 循环 卷 积 ， 而 不 是 线性 卷 积 。 为 了 用 FFT 计算 线性 卷 积 ， 需 要 对 信和 号 
进行 补 零 扩 展 ， 使 得 其 长 度 长 于 线性 卷 积 结果 的 长 度 。 

例如 ， 如 果 要 计算 数组 a 和 b 的 卷 积 ,a 和 ob 的 长 度 都 为 128， 那么 它们 的 卷 积 结果 的 长 度 
为 len(a) +len(b)-1=255。 为 了 让 FFT 能 够 计算 其 线性 卷 积 ,需要 将 a 和 b 的 长 度 都 扩展 到 256。 
下 面 的 程序 演示 了 这 个 计算 过 程 。 

@ 找 到 大 于 n 的 最 小 的 2 的 整数 次 晕 。@ff0 的 第 二 个 参数 为 FFT 的 长 度 ， 当 输入 数据 的 长 
度 不 够 时 , 自动 对 其 进行 补 零 。 @ 最 后 对 两 个 频 域 信号 的 乘积 调用 ifft0, 得 到 时 域 信号 的 卷 积 。 
其 结果 比 实际 的 卷 积 结果 多 一 个 数 ， 这 个 多 出 来 的 数值 应 该 接近 于 0， 请 读者 自行 验证 。 


所 


def fft_convolve(a,b): 
n= len(a) + len(b) - 1 
N = 2**(int(np.log2(n)) + 1) © 
A= np.fft.fft(a, N) © 
B= np.fft.fft(b, N) 
return np.fft.ifft(A * B)[:n] © 


a = np.random.rand(128) 
b = np.random.rand(128) 
c = np.convolve(a,b) 
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| np.allclose(c, fft_convolve(a, b)) 
True 


于 直接 计算 卷 积 和 使 用 FFT 的 快速 卷 积 的 复杂 度 级 别 不 同 ,因此 当 卷 积 数 据 很 长 时 ， 可 
以 观察 到 明显 的 速度 差别 。 下 面 的 程序 比较 两 种 卷 积 算法 的 运算 时 间 : 


| 


L a=np.random.rand(16666) 
! b=np.random.rand(16666) 
print np.allclose(np.convolve(a, b), fft_convolve(a, b)) 


%timeit np.convolve(a, b) 

%timeit fft_convolve(a, b) 

True 

16 loops, best of 3: 36.5 ms per loop 
166 loops, best of 3: 6.43 ms per loop 


显然 计算 两 个 很 长 的 数组 的 卷 积 时 ，FFT 快速 卷 积 要 比 直接 卷 积 快 很 多 。 但 是 对 于 较 短 的 
数组 ， 直 接 卷 积 运算 还 是 更 快 一 些 。 图 11-29 显示 了 直接 卷 积 和 快速 卷 积 的 平均 计算 时 间 和 长 
度 之 间 的 关系 。 其 中 立轴 显示 的 是 每 个 数据 的 平均 计算 时 间 ， 因 此 直接 卷 积 对 应 的 曲线 是 线性 
的 : O(N)。 由 图 可 知 对 于 长 度 大 于 1024 的 卷 积 ， 快 速 卷 积 显示 出 明显 的 优势 。 


计算 时 间 (us/point) 


1000 2000 3000 4000 5000 6000 7000 8000 
长 度 


由 于 FFT 卷 积 很 常用 ， 因 此 scipy.signal 中 提供 了 fftconvolve0。 此 函数 采用 FFT 运算 ， 并 
可 计算 多 维 数组 的 卷 积 。 下 面 是 在 Notebook 中 测试 直接 卷 积 与 快速 卷 积 的 速度 的 程序 ; 
results = [] 
for n in xrange(4, 14): 
N = 2**n 


a = np.random.rand(N) 
b = np.random.rand(N) 
trl = %timeit -r 1 -o -q np.convolve(a, b) 
tr2 = Mtimeit -Fr 1 -o -q fft_convolve(a, b) 
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tl = tri.best * le6 / N 

t2 = tr2.best * le6 / N 

results.append((N, t1, t2)) 
results = np.array(results) 


pl.figure(figsize=(8,4)) 
pl.plot(results[:，8]，results[:，1]，label=u" 直 接 卷 积 ") 
pl.plot(results[:, 8], results[:，2]，label=u"FFT 卷 积 ") 
pl.legend() 

pl.ylabel(u" 计 算 时 间 (us/point)") 

pl1.xlabel(u" 长 度 ") 

pl.xlim(min(n_list),max(n_list)) 


2. 卷 积 的 分 段 运算 


现在 考虑 输入 信号 x 和 系统 响应 h 的 卷 积 运算 。 通 常 输入 信号 是 非常 长 的 ， 例 如 要 对 某 段 录 
音 进 行 滤波 处 理 ， 假 设 取样 频率 为 8kHz， 录 音 长 度 为 1 分 钟 ， 则 数据 的 长 度 为 480000。 而 如 果 
需要 对 麦克 风 的 输入 信号 进行 连续 的 滤波 处 理 ， 那 么 输入 信号 的 长 度 可 以 看 作 无 限 长 的 。 系 统 
响应 h 的 长 度 通常 都 是 固定 的 , 例如 它 可 能 是 某 个 房间 的 脉冲 响应 , 或 是 某 种 FIR 滤波 器 的 系数 。 

根据 前 面 的 介绍 ,为 了 有 效 地 利用 FFT 计算 卷 积 ,我们 希望 它 的 两 个 输入 长 度 相当 , 于 是 
就 需要 对 输入 信号 进行 分 段 处 理 。 卷 积 的 分 段 运 算 被 称 作 overlap-add 运算 ， 其 计算 方法 如 图 
11-30 所 示 : 


分 段 卷 积 演示 


一 小波 器 系数 h 


一 分 段 痢 积 1 


图 11-30 使 用 overlap-add 法 进行 分 段 卷 积 的 过 程 演示 


| 实 
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图 中 原始 信号 x 的 长 度 为 300, 将 它 分 为 三 段 ， 分 别 与 滤波 器 系数 h 进行 卷 积 计算 。h 的 长 
度 为 101， 因 此 每 段 输出 200 个 数据 ， 图 中 用 绿色 标 出 每 段 输 出 的 200 个 数据 。 这 3 段 数 据 按 
照 时 间 顺 序 求 和 ， 得 到 的 结果 和 直接 卷 积 的 结果 是 相同 的 。 

输入 信号 x 和 滤波 器 的 分 段 卷 积 运算 可 以 按照 如 下 步骤 进行 ， 假 设 h 的 长 度 为 M: 

(1) 建立 一 个 缓存 ， 其 大 小 为 N+M - 1， 初 始 值 为 0。 

O) 每 次 从 x 中 读 取 NN 个 数据 ， 和 hh 进行 卷 积 ， 得 到 N+M - 1 个 数据 。 将 这 些 数据 与 缓存 
中 的 数据 进行 求 和 ， 并 将 结果 保存 进 缓存 中 ， 最 后 输出 缓存 的 前 N 个 数据 。 

G) 将 缓存 中 的 数据 向 左 移动 N 个 元 素 ， 也 就 是 让 缓存 中 的 第 N 个 元 素 成 为 第 0 个 元 素 ， 
左 移 完成 之 后 将 缓存 中 后 面 的 N 个 元 素 全 部 设置 为 0。 

(4) 跳 转 到 (2) 重 复 运 行 。 

下 面 是 实现 这 一 算法 的 演示 程序 : 


x = np.random.rand(1666) 
h = np.random.rand(161) 
y = np.convolve(x, h) 


N = 56 # 分 段 大 小 
M = len(h) # 滤波 器 的 长 度 


output = [] 


# 绥 存 初始 化 为 @ 
buffer = np.zeros(M+N-1,dtype=np.float64) 


for i in xrange(len(x)/N): 
# 从 输入 信号 中 读 取 N 个 数据 
xslice = x[i*N:(i+1)*N] 
# 计 算 卷 积 
yslice = np.convolve(xslice, h) 
# 将 卷 积 的 结果 加 入 到 绥 存 中 
buffer += yslice 
撒 答 出 绥 存 中 的 前 N 个 数据 ， 注 意 使 用 copy， 和 否则 和 输出 的 是 buffer 的 一 个 视图 
output.append( buffer[:N].copy() ) © 
# 绥 存 中 的 数据 左 移 N 个 元 素 
buffer[6:-N] = buffer[N:] 
# 后 面 的 补 6 
buffer[-N:] = 6 


捍 性 输出 的 数据 组 合 为 数组 
y2 = np.hstack(output) 
# 计 算 和 直接 卷 积 的 结果 之 间 的 误差 


print "error:"，np.max(np.abs( y2 - y[:len(x)] ) ) 
error: 7.1654273576e-15 


@ 注 意 需 要 输出 缓存 前 N 个 数据 的 拷贝 ， 否 则 输出 的 是 数组 的 视图 。 当 此 后 缓存 buffer 更 
新 时 , 视图 中 的 数据 会 一 起 更 新 。 程序 输出 直接 卷 积 和 overlap-add 分 段 卷 积 的 最 大 误差 。 将 FFT 
快速 卷 积 和 overlap-add 相 结合 ， 可 以 制作 出 一 些 快速 的 实时 数据 滤波 算法 。 但 是 由 于 FFT 卷 积 
对 于 两 个 长 度 相当 的 数组 最 为 有 效 ， 因 此 在 分 段 时 也 会 有 所 限制 。 例 如 ， 如 果 滤 波 器 的 长 度 为 
2048， 那 么 理想 的 分 段 长 度 也 为 2048; 如 果 将 分 段 长 度 设置 得 过 低 ， 反 而 会 增加 运算 量 。 因 此 
在 实时 性 要 求 很 强 的 系统 中 ， 只 能 采用 直接 卷 积 。 


11.5 布尔 可 满足 性 问题 求解 器 


会 与 本 节 内 容 对 应 的 Notebook 为 : 11-examples/examples-500-picosat.ipynb。 


可 满足 性 用 来 解决 给 定 的 布尔 方程 式 ， 寻 找 一 组 变量 赋值 ， 使 问题 成 为 可 满足 。 布 尔 可 满 
足 性 问题 (以 下 简称 SAT) 属 于 决定 性 问题 ， 是 第 一 个 被 证 明 NP 完全 问题 。 它 是 计算 机 科学 中 
许多 领域 的 重要 问题 ， 包 括 计 算 机 科学 基础 理论 、 算 法 、 人 工 智 能 、 硬 件 设计 等 。 本 章 介绍 如 
何 用 Cython 包装 C 语 言 的 SAT 问题 求解 器 PicoSAT， 并 使 用 该 扩展 模块 解决 数 独 游 戏 和 扫雷 


http:/ftmvjku.atpicosat/ 
PicoSAT 的 下 载 地址 。 


让 我 们 先 通过 一 个 例子 解释 什么 是 布尔 方程 式 ， 以 及 如 何 将 其 转换 为 SAT 求解 器 所 需 的 
合 取 范式 (CNF)， 并 调用 cycosat 对 其 求解 。 


一 道 逻辑 推理 题 

有 4 名 嫌疑 犯 他 们 做 了 如 下 供述 : 

@ 甲 : 不 是 我 作 的 案 。 

@ 乙 : 丁 就 是 罪犯 。 

@ 两 : 乙 是 罪犯 。 

e 丁 : 乙 有 意 证 陷 我 。 

已 知 4 人 当中 只 有 一 人 说 了 真 话 。 请 推理 出 罪犯 是 谁 ? 


覃 将 
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我 们 用 A、B、C 和 了 D 这 4 个 布尔 变量 分 别 表 示 甲 、 乙 、 丙 、 丁 4 位 嫌疑 人 是 否 是 罪犯 。 
表达 式 A 表 示 甲 是 罪犯 ，~A 表 示 甲 不 是 罪犯 。 由 此 可 以 得 出 表 11-1 所 示 的 4 个 布尔 表达 式 : 


=] 


表 11-1 布尔 表达 式 


供述 
不 是 我 作 的 案 


乙 有 意 评 陷 我 


由 于 4 个 人 中 只 有 一 人 说 了 真 话 ， 因 此 有 如 下 4 种 可 能 ， 即 列举 出 只 有 一 个 表达 式 为 真 的 
所 有 组 合 ， 其 中 & 表 示 与 运算 ，| 表 示 或 运算 。 

S1 & <S2 & -<S3 & <S4 | 

~S1 & S2 & ~S3 & ~54 | 


~S1 & ~S2 & S53 & ~54 | 
~S1 & ~S2 & -S3 & S4 


在 上 面 的 表达 式 中 ,每 行 的 表达 式 是 一 个 与 运算 ， 而 行 之 间 是 或 运算 。 这 种 逻辑 公式 被 称 
为 析 取 范式 DNF)。 然 而 SAT 求解 器 只 能 对 CNF 表达 式 求解 。 一 个 满足 CNF 的 布尔 表达 式 由 
多 个 子 表达 式 的 与 运算 构成 ， 而 每 个 子 表达 式 则 由 逻辑 变量 的 或 运算 构成 。 因 此 需要 使 用 另外 
的 方法 来 表示 S1、S2、S3、S4 中 只 有 一 个 为 真 : 

~(S1 & S2) & 

~(S1 & S3) & 

~(S1 & S4) & 

~(S2 & S3) & 

~(S2 & S4) & 

~(S3 & S4) & 

~(~S1 & ~S2 & ~S3 & ~S4) 


在 上 面 的 表达 式 中 ， 列 举 S1、S2、S3、S4 中 所 有 的 两 两 组 合 ， 任 何 一 个 组 合 都 不 可 能 同 
时 为 真 ， 最 后 一 个 子 句 ~(~S1 & ~S2 & ~S3 & ~S4) 表 示 4 个 供述 不 可 能 都 为 假 。 使 用 布尔 公式 : 
~(A&&B)=~A1~B， 可 得 到 下 面 左 侧 的 CNF 公式 。 把 SI、S2、S3、S4 转 换 成 A、B、C、 D 之 
后 得 到 右 侧 的 表示 该 逻辑 问题 的 CNF 公式 : 


~S1，~S2 A, ~D 
~S1, ~S3 A, ~B 
~S1, ~S4 RD 
~S2，~S3 ~D, ~B 
~S2，~S4 <D，D 
~S3，~S4 ~<B，D 


S1， S2，S3，S4 ~A, D, B, ~D 


将 DNF 转换 为 CNF 是 一 件 比 较 麻烦 的 工作 ， 可 以 借助 SympPy 的 布尔 代数 模块 自动 转换 。 
@ 首 先 定义 A 到 DD 共 4 个 符号 , @ 并 使 用 位 操作 符 创建 DNF 表 达 式 。@ 然 后 调用 to_cnf0 将 DNF 
表达 式 转换 为 CNF 表达 式 。 得 到 的 结果 比 上 面 的 手工 转换 结果 更 加 简洁 : 


from sympy import symbols 
from sympy.logic.boolalg import to_cnf 


A, B, C, D = symbols("A:D") © 


S1=~A 
Ss2=D 
Ss3=B 
S4 = ~D 
dnf = ((S1& <S2 & <S3& <S4) | ©@ 


(<S1& S2 & -<S3 & ~S4) | 
(<S1& ~<S2 & S3 & -S4) | 
(~<S1 & -<S2 & -S3 & S4)) 


cnf = to_cnf(dnf) © 
%sympy_latex cnf 


AA-BA(AVD)A(AV-—B)A(AV-D)A (DV-—B)A DV-—D)A HBV-—D) 


使 用 satisfiable0 可 以 对 逻辑 表达 式 进行 推导 , 下 面 的 结果 显示 好 辑 变 量 A 为 真 , 即 甲 是 罪犯 : 


from sympy.logic.inference import satisfiable 
satisfiable(cnf) 
{B: False, A: True, D: False} 


下 面 使 用 本 章 将 要 介绍 的 cycosat 扩展 库 对 这 个 逻辑 问题 进行 求解 。CNE 公式 可 以 使 用 一 
个 嵌 套 列表 表示 , 列表 中 的 每 个 整数 与 一 个 布尔 变量 对 应 , 负数 表示 逻辑 非 。 例 如 1 与 A 对 应 ， 
1 表示 A， 而 -1 表示 ~A。 

CoSAT 类 是 用 Cython 编写 的 扩展 类 ， 它 对 C 语言 编写 的 PicoSAT 进行 包装 。@ 调 用 
add_clauses0 将 嵌 套 列表 表示 的 CNF 公式 添加 进 求解 器 。 可 以 多 次 调用 add_clauses0 逐 步 添加 更 
多 的 表达 式 。@ 调 用 solve0 进 行 求解 得 到 一 个 解 列表 , 列表 中 的 每 个 元 素 与 一 个 布尔 变量 对 应 ， 

1 表示 该 布尔 变量 为 真 ，-1 表 示 假 。 由 结果 可 知 甲 是 罪犯 。 


from scpy2.cycosat import CoSAT 


sat = CoSAT() 
problem = [[1, -4], [1, -2], [1, 4], [-4, -2], 
[4412,4] L4020=41l 
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sat.add_clauses(problem) © 
print sat.solve() @ 
EL 


11.5.1 用 Cython 包装 PicoSAT 


PicoSAT 采 用 C 语 言 编写 , 其 源 代码 只 有 两 个 文件 : picosat.c 和 picosath。 我们 编写 的 Cython 
扩展 库 将 对 其 中 的 如 下 函数 进行 包装 ; 
#define PICOSAT_UNKNOWN 8 


#define PICOSAT_SATISFIABLE 16 
#define PICOSAT_UNSATISFIABLE 28 


typedef struct PicoSAT PicosAT; 


PicoSAT * picosat _ init (void); 

void picosat reset (PicoSAT *); 

int picosat add (PicoSAT *, int lit); 

int picosat add lits (PicoSAT *, int * lits); 
int picosat_sat (PicoSAT *, int decision limit); 
int picosat_variables (PicoSAT *); 

int picosat deref (PicoSAT *, int lit); 

void picosat_assume (PicoSAT *, int lit); 


至 将 


PicoSAT 求 解 器 的 所 有 状态 都 保存 在 PicoSAT 结构 体 中 ， 调 用 picosat_init0 将 返回 一 个 指向 
新 分 配 的 结构 体 的 指针 ， 而 picosat_res0 则 释放 该 指针 所 指向 的 结构 体 。 

调用 picosat_add0 和 picosat_add_lits0 函 数 往 结构 体 中 添加 逻辑 子 句 。 调 用 一 次 picosat_add0 
只 能 添加 一 条 子 句 中 的 一 个 变量 ， 而 picosat_add_lits0 则 可 添加 整 条 子 句 ， 用 0 表示 子 句 结束 。 
例如 添加 子 句 1、-4， 可 以 如 下 调用 : 

picosat_add(sat, 1); 

picosat_add(sat, -4); 

picosat_add(sat, 0); 


或 者 : 


int clause[3] = {1, -4, 8}; 
picosat add lits(sat, clause); 


调用 picosat_sat0 进 行 求解 ， 返 回 PICOSAT_SATISFIABLE 表示 求解 成 功 。 调 
picosat_variables0 得 到 风 辑 变量 的 个 数 ，picosat_deref0 得 到 第 lt 个 逻辑 变量 的 解 ， 它 返回 1 表示 
该 逻辑 变量 取 值 为 Tme，-1 表示 取 值 为 False，0 表示 不 确定 。 

下 面 在 Cython 中 对 picosath 文件 中 定义 的 常量 宏 、 结 构 体 以 及 函数 进行 声明 。 由 于 不 需 
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在 Cython 中 存 取 PicoSAT 结构 体 的 字段 内 容 ， 因 此 无 须 对 其 各 个 字段 进行 声明 。 


cdef extern from "picosat.h": 
ctypedef enum: 
PICOSAT_UNKNOWN 
PICOSAT_SATISFIABLE 
PICOSAT_UNSATISFIABLE 


ctypedef struct PicoSAT: 
pass 


PicoSAT * picosat init () 

void picosat reset (PicoSAT *) 

int picosat add (PicoSAT *, int lit) 

int picosat add lits(PicoSAT *, int * lits) 

int picosat_sat (PicoSAT *, int decision limit) 
int picosat_variables (PicoSAT *) 

int picosat deref (PicoSAT *, int lit) 

void picosat assume (PicoSAT *, int lit) 


我 们 使 用 下 面 的 扩展 类 CoSAT 对 PicoSAT 结构 体 进 行 包装 。@ 为 了 在 Cython 程序 中 快速 
重建 PicoSAT 结构 体 ， 这 里 采用 clauses 属性 缓存 将 被 添加 进 PicoSAT 结构 体 中 的 所 有 子 句 。 它 
是 Python 标准 库 array 中 的 数组 对 象 。 由 于 array 对 象 同 时 具有 C 语言 数组 的 连续 存储 数值 元 素 
的 功能 ， 以 及 列表 的 动态 扩容 功能 ， 因 此 很 适合 作为 子 句 的 缓存 使 用 。 在 clauses 中 ， 每 条 子 名 
都 以 0 开始 ， 以 0 结束 ， 因 此 在 初始 化 时 为 其 添加 一 个 元 素 0。 

@buf_pos 属性 保存 clauses 中 已 经 添加 进 PocoSAT 结构 体 的 子 句 的 最 终 位 置 ，-1 表示 需要 
创建 新 的 PicoSAT 结构 体 。 


from cpython cimport array 


cdef class CoSAT: 


cdef PicoSAT * sat 
cdef public array.array clauses © 
cdef int buf pos © 


def _cinit_(self): 
self.buf pos = -1 


self.clauses = array.array("i", [8]) 


def _ dealloc_ (self): 
self.close_sat() 
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cdef close sat(self): 
if self.sat is not NULL: 
picosat reset(self.sat) 
self.sat = NULL 


在 每 次 调用 picosat_sat0 求 解 之 前 , 都 需要 将 缓存 中 位 于 buf_pos 之 后 的 子 句 添加 进 PicoSAT 
结构 体 ， 这 个 工作 由 build_causes0 完 成 。@ 在 Cython 中 可 以 通过 array 对 象 的 array.data.as_ints 
属性 获得 指向 数组 对 象 的 数据 缓存 区 ， 从 而 通过 C 语 言 的 指针 对 数组 中 的 数据 进行 快速 操作 。 


四 而 当 buf_pos 为 -1 时 ， 需 要 重新 创建 PicoSAT 结构 体 ， 这 个 工作 由 build_sat0 完 成 。 


cdef build clauses(self): 
cdef int * p 
cdef int i 
cdef int count = len(self.clauses) 
if count - 1 == self.buf pos: 


return 
革 . p= self.clauses.data.as_ints © 
for i in range(self.buf pos, count - 1): 
if p[i] == 6: 


picosat add lits(self.sat, p+i+1) 
self.buf pos = count - 1 


cdef build sat(self): @ 

if self.buf pos == -1: 
self.close_sat() 
self.sat = picosat_init() 
if self.sat is NULL: 

raise MemoryError() 

self.buf pos = 6 

self.build clauses() 


接 下 来 是 往 缓存 中 添加 单个 子 句 的 add_clause0 和 添加 多 个 子 句 的 add_clauses0， 它 们 都 是 
通过 调用 内 部 方法 _add_clause0 来 实现 的 。 
cdef _add clause(self, clause): 


self.clauses.extend(clause) 
self.clauses.append(6) 


def add_clause(self，clause) : 
self._add_clause(clause) 


def add clauses(self, clauses): 
for clause in clauses: 
self._add_clause(clause) 
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get_solution0 返 回 保存 当前 解 的 列表 ，@ 首 先 调 用 picosat_variables0 获 得 布尔 变量 的 个 数 ， 
@ 然 后 调用 picosat_deref0 获 得 第 i 个 变量 的 解 。 注意 在 PicoSAT 中 , 布尔 变量 的 序号 从 1 开始， 
此 返回 列表 中 下 标 为 0 的 元 素 表示 的 是 序号 为 1 的 布尔 变量 的 解 。 
在 solve0 中 @ 首 先 调用 build_sat0 方 法 更 新 结构 体 ，@ 然 后 调用 picosat_sat0 求 解 ， 若 返回 值 
为 PICOSAT_SATISFIABLE， 则 返回 get_solution0 得 到 的 解 。 


济 


def get_solution(self): 
cdef list solution = [] 
cdef int i, v 
cdef int max_index 


max_index = picosat variables(self.sat) © 
for i in range(max_index): 
Vv = picosat deref(self.sat, i+1) ©@ 
solution.append(v) 
return solution 


列 将 


def solve(self, limit=-1): 
cdef int res 
self.build sat() ®© 
res = picosat_sat(self.sat, limit) @ 
if res == PICOSAT_SATISFIABLE: 
return self.get_solution() 
elif res == PICOSAT_UNSATISFIABLE: 
return “PICOSAT_UNSATISFIABLE” 
elif res == PICOSAT_UNKNOWN: 
return “PICOSAT_UNKNOWN” 


上 面 的 solve0 方 法 只 能 获得 一 个 解 ， 下 面 的 iter_solve0 返 回 一 个 能 遍历 所 有 解 的 迭代 器 。 
@ 在 每 次 获得 解 solution 之 后 ， 添 加 一 条 否定 该 解 的 子 句 。 例 如 ， 如 果 解 为 -1, 1, 1,-]]， 其 含 
为 ~B1 & B2 & B3 & ~B4， 其 中 Bi 为 第 i 个 布尔 变量 。 对 该 子 句 取 反 得 到 B11~B21~B31B4， 转 
换 为 PicoSAT 的 子 句 为 ，1, -2, -3, 4。 思 由 于 iter_solve0 修 改 了 结构 体 的 内 容 ， 无 法 将 其 还 原 到 
求解 之 前 的 状态 ， 因 此 调用 iter_reset0 将 buf_pos 属性 设置 为 -1， 这 样 下 次 求解 时 ， 将 重新 创建 
新 的 PicoSAT 结构 体 。 


def iter_solve(self): 
cdef int res, i 
cdef list solution 
self.build sat() 
while True: 
res = picosat_sat(self.sat, -1) 
if res == PICOSAT_SATISFIABLE: 
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solution = self.get_solution() 
yield solution 
for i in range(len(solution)): 
picosat add(self.sat, -solution[i] * (i+1)) © 
picosat_add(self.sat, 8) 
else: 
break 
self.iter_reset() 


def iter_reset(self): @ 
self.buf_pos = -1 


下 面 让 我 们 看 看 如 何 使 用 CoSAT 类 解决 两 个 较 困难 的 逻辑 题 。 
11.5.2” 数 独 游戏 


数 独 是 一 种 数字 填充 游戏 ， 玩 家 需要 把 从 1 到 9 的 数字 填 进 每 一 格 ， 保 证 每 行 、 每 列 和 每 
例 ; 个 宫 GX3 的 方块 ) 都 有 1 至 9 所 有 数字 。 如 图 11-31 所 示 ， 黑 色 数字 为 游戏 设计 者 提供 的 部 分 数 
字 ， 它 们 使 该 谜 题 只 有 一 个 答案 ， 灰 色 数字 显示 该 游戏 的 解答 。 


图 11-31 数 独 游戏 示例 


由 于 SAT 是 一 个 布尔 求解 器 ， 其 中 的 每 个 变量 只 有 两 个 候选 值 : False 或 True。 为 了 表示 
数 独 的 表格 ， 我 们 需要 一 个 三 维 数组 bools， 其 第 0 轴 对 应 数 独 表格 的 行 ， 第 1 轴 对 应 列 ， 第 2 
轴 对 应 每 个 单元 的 候选 数字 。 例 如 ， 如 果 在 最 终 的 解 中 ，bools[4, 1, 3] 对 应 的 布尔 变量 为 真 ， 则 
表示 数 独 表格 中 的 第 5 行 、 第 2 列 的 值 为 4。 注 意 这 里 数 独 游戏 中 的 行 、 列 以 及 数字 都 从 1 
始 ， 而 程序 中 所 有 的 数组 下 标 都 从 0 开始。 
下 面 的 bools 数组 中 保存 用 于 SAT 求 解 的 布尔 变量 的 序号 , 注意 SAT 中 的 布尔 变量 的 序号 
从 1 开始 : 
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bools = np.arange(1, 9 * 9 * 9 + 1).reshape(9, 9, 9) 


根据 数 独 的 约束 条 件 : 
DD 每 个 单元 只 能 填写 一 个 数字 ， 即 bools 中 第 2 轴 上 的 每 组 布尔 变量 只 有 一 个 为 真 。 


2) 每 行 中 不 能 有 重复 的 数字 ， 第 1 轴 上 的 每 组 布尔 变量 只 有 一 个 为 真 。 例 如 ，bools[0, :, 2] 
为 第 一 行 中 的 每 个 数字 为 3 的 布尔 变量 ， 由 于 每 行 中 有 且 只 有 一 个 数字 为 3， 因 此 bools[0, :, 2] 


中 只 有 一 个 为 Tmue。 
3) 每 列 中 不 能 有 重复 的 数字 : 第 0 轴 上 的 每 组 布尔 变量 只 有 一 个 为 真 。 


4) 每 块 中 不 能 有 重复 的 数字 : 这 个 条 件 稍微 复杂 ， 需 要 对 bools 中 变量 的 位 置 进行 一 些 调 
整 ， 稍 后 再 做 分 析 。 
用 一 句 话 说明 数 独 的 约束 条 件 就 是 : 对 布尔 变量 进行 不 同 的 分 组 ， 保 证 每 个 分 组 中 只 有 一 


个 布尔 变量 为 真 。 下 面 我 们 看 看 如 何 用 SAT 表示 一 组 布尔 变量 中 只 有 一 个 为 真 这 个 条 件 。 


SAT 采 用 合 取 范 式 ， 其 中 每 条 表达 式 中 的 布尔 变量 采用 或 运算 连接 ， 而 表达 式 之 间 采 用 与 


运算 连接 。 我 们 需要 使 用 这 种 逻辑 表达 式 表 示 “ 一 组 布尔 变量 中 只 有 一 个 为 真 ”。 例 如 ， 
布尔 变量 A、B、C， 下 面 两 条 表达 式 的 与 运算 能 表示 A、B、C 中 只 有 一 个 为 真 : 

1) AIB1C: 表示 A、B、C 中 至 少 有 一 个 为 真 。 

2)~(A&B)K&-A&OK&-B&O: 任意 两 个 布尔 变量 都 不 同时 为 真 。 

第 二 个 条 件 可 以 重 写 为 (~A1~B) & (~A1~QO & (~B1~C)， 对 应 三 条 SAT 的 表达 式 ， 因 
终 的 或 与 表达 式 为 : 


(AIB|IOR&(A|~B) EA|~) (BB|~C) 


根据 上 面 的 表达 式 ， 我 们 需要 从 9 个 元 素 中 取 两 个 元 素 的 所 有 组 合 ， 这 种 组 合 运 算 可 


用 itertools.combinations 来 实现 。 下 面 的 get_conditions0 返 回 使 得 bools 中 最 终 轴 上 的 所 有 布 
组 只 有 一 个 为 真 的 SAT 表 达 式 。 

OO 首先 将 从 N 个 数 中 选取 两 个 数 的 所 有 组 合 转 换 成 一 个 二 维 数组 index， 其 形 
(N*(N-D/2, 2)。@ 创 建 第 一 个 条 件 对 应 的 逻辑 表达 式 ， 只 上 每 组 逻辑 变量 的 序号 。 
建 第 二 个 条 件 对 应 的 逻辑 表达 式 ， 即 最 终 轴 上 每 两 个 逻辑 变量 序号 的 负 值 。 


from itertools import combinations 


def get_conditions(bools): 
conditions = [] 
n = bools.shape[-1] 
index = np.array(list(combinations(range(n), 2))) © 
# 以 最 后 一 轴 为 组 
# 第 一 个 条 件 : 每 组 只 能 有 一 个 为 真 
conditions.extend(bools.reshape(-1, n).tolist()) @ 
# 第 二 个 条 件 : 每 组 中 没有 两 个 同时 为 真 
conditions.extend((-bools[..., index].reshape(-1, 2)).tolist()) © 
return conditions 


对 于 
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下 面 是 对 于 1、2、3 和 4、5、6 这 两 组 逻辑 变量 的 运算 结果 ; 


print get_conditions(np.array([[1，2，3]，[4，5，6]])) 
国信 汪汪 012 区 3 IE23I IE4 IE OSI 


下 面 使 用 getconditions0 计 算数 独 的 前 三 个 约束 条 件 ， 由 于 它 只 针对 最 终 轴 进行 运算 ， 因 
此 对 于 “每 行 的 数字 不 能 重复 ”和 “每 列 的 数字 不 能 重复 ”这 两 个 条 件 ， 需 要 将 条 件 对 应 的 
调换 为 最 终 轴 。 


c1 = get_conditions(bools) # 每 个 单元 格 只 能 取 1-9 中 的 一 个 数字 
c2 = get_conditions(np.swapaxes(bools，1，2)) # 每 行 的 数字 不 能 可 
c3 = get_conditions(np.swapaxes(bools，6，2)) # 每 列 的 数字 不 能 可 


对 于 约束 条 件 四， 需要 将 每 块 的 布尔 变量 调换 为 最 终 轴 ， 这 需要 交 蔡 使 用 reshape0 和 
swapaxes()。 最 后 将 cl、c2、c3、c4 连接 成 一 个 列表 conditions， 就 得 到 了 数 独 游戏 所 有 约束 条 
件 的 SAT 表达 式 。 

tmp = np.swapaxes(bools.reshape(3, 3, 3, 3, 9), 1, 2).reshape(9, 9, 9) 

c4 = get_conditions(np.swapaxes(tmp，1，2)) # 每 块 的 数字 不 能 重复 


conditions = cl + C2 + C3 + C4 


最 后 使 用 CoSAT 对 数 独 游戏 求解 。@solve() 方 法 返回 的 是 一 个 列表 ， 首 先 将 其 还 原 成 形状 
为 (9, 9, 9) 的 数组 ，@ 然 后 找到 该 数组 中 最 终 轴 上 1 对 应 的 下 标 ， 而 实际 应 该 填写 的 数字 为 该 下 
标 加 1。 

请 读者 仔细 观察 程序 的 输出 ， 分 析 其 是 否 满足 数 独 游戏 的 约束 条 件 。 


def format_solution(solution) : 
solution = np.array(solution).reshape(9, 9, 9) © 
return (np.where(solution == 1)[2] + 1).reshape(9, 9) @ 


sat = CoSAT() 
sat.add_clauses(conditions) 
solution = sat.solve() 
format_solution(solution) 


Spayf[[t958577 6 54.3 2, 1] 
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下 面 用 CoSAT 和 conditions 解决 一 个 实际 的 数 独 游戏 .游戏 的 初始 状态 由 sudoku_str 指定， 
P 0 表示 需要 填写 数字 的 空白 格 。@ 对 于 初始 状态 中 的 每 个 非 0 数字 ， 都 创建 一 个 与 其 对 应 
的 布尔 变量 为 真 的 布尔 表达 式 , 得 到 conditions2。 @ 该 游戏 的 解 同时 满足 conditions 和 conditions2 
条 件 


nn 


sudoku_str = 
6866666185 
667636666 
866621466 
866666626 
6863965666 
856666664 
864866666 
866646366 
931666688""”" 


sudoku = np.array([[int(x) for x in line] ， 例 
for line in sudoku_str.strip().split()]) 

r, c= np.where(sudoku != 6) 

v= sudoku[r, c] - 1 


conditions2 = [[x] for x in bools[r, ¢, v]] © 

print "conditions2:" 

conditions2 

sat = CoSAT() 

sat.add_clauses(conditions + conditions2) ©@ 

solution = sat.solve() 

format_solution(solution) 

conditions2: 

[[55]， [71]， [77]， [106], [126]， [2868]， 
[268]， [226]， [25t] 5 [368]， [345]， [366]， 
[374]， [384]， [419]， [481]， [5e8], [521]， 
[528]， [667]， [624]， [657]， [666]， [667]] 


array([[3; 67 2 7. 9, 4 二 3B 5]s 
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我 们 注意 到 conditions2 中 的 每 条 或 表示 式 只 包含 一 个 布尔 变量 ， 对 于 这 种 简单 的 表达 式 ， 
可 以 使 用 void picosat_assume(PicoSAT * int lib 添 加 假设 条 件 。 其 中 革 为 布尔 变量 的 序号 ， 正 数 
表示 假设 该 布尔 变量 为 真 , 负数 表示 假 . 下面 是 CoSAT 类 的 assume_solve0 方 法 , 它 在 调用 solve0 
方法 求解 之 前 添加 assumes 指定 的 所 有 假设 条 件 。 下 面 是 使 用 assume_solve0 求 解 的 程序 : 


def assume_solve(self, assumes): 
self.build sat() 
for assume in assumes: 
picosat_assume(self.sat，assume) 
return self.solve() 


sat = CoSAT() 
sat.add_clauses(conditions) 

solution = sat.assume_solve(bools[r，c，v].tolist()) 
format_solution(solution) 
straytll3r or 2 7 9 A To B51s 
例 | 下 
| 上 OCX 
[By 77 7 0 5 ds 
A er ro PE RR 
DR fy Sy oR 
ne 
[078 97 :15.409 3 0 2 
oe We 


使 用 assume_solve0 的 一 个 优点 是 在 求解 完成 之 后 所 有 的 假设 条 件 将 被 清空 , 因此 可 以 重复 
使 用 同一 个 sat 对 象 对 多 个 数 独 游戏 求解 。 


仿 Scpy2.examples.sudoku_solver: 采用 matplotlib 制作 的 数 独 游戏 求解 器 。 


本 书 提供 了 一 个 交互 式 数 独 游戏 求解 器 程序 ， 可 以 使 用 如 下 键盘 按键 来 操作 : 

e 使 用 方向 键 改变 当前 单元 格 的 位 置 。 

e 使 用 数字 键 1-9 填写 当前 单元 格 ，0 清除 当前 单元 格 ， 用 户 输入 的 数字 采用 黑色 显示 ， 
空白 单元 格 的 解 采用 浅 灰色 显示 。 

e 使 用 Cul+E 清除 所 有 单元 格 的 内 容 。 


11.5.3 ”扫雷 游戏 


扫雷 游戏 是 Windows 操作 系统 中 最 著名 的 附带 游戏 , 玩家 点 开 方块 后 如 果 没 有 地 雷 ， 则 会 
有 一 个 数字 显现 其 上 ， 这 个 数字 为 邻近 的 8 个 方块 中 的 地 雷 数 ， 玩 家 运用 逻辑 推 上 产 哪些 方块 有 
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扫雷 游戏 也 可 以 使 用 SAT 进行 求解 。 可 以 用 一 个 逻辑 变量 表示 每 个 方块 是 否 有 地 雷 ， 而 


每 个 已 经 打开 的 方块 中 的 数字 则 对 其 周围 地 雷 的 分 布 提 供 了 约束 条 件 , 可 以 使 用 SAT 所 需 的 或 


与 逻辑 表达 式 表示 这 些 约束 条 件 。 与 前 面 介绍 的 逻辑 游戏 不 同 的 是 ， 自 动 扫雷 的 目标 不 是 找到 


一 组 可 能 
只 别 雷 区 中 的 数字 
下 面 让 我 们 先 使 用 两 幅 扫 雷 游戏 的 界面 截图 找 出 所 有 数字 及 其 坐标 ， 然 后 讨论 如 何 使 


1. 让 


SAT 找到 


的 解 ， 而 是 要 找到 绝对 不 是 雷 的 方块 ， 从 而 进一步 打开 它们 。 


所 有 可 以 打开 的 方块 的 坐标 。 


mine_init.png 为 扫雷 初始 状态 时 的 界面 截图 ，mine01.png 为 打开 了 一 些 方 格 之 后 的 截图 ， 
mine_numbers.png 为 已 打开 的 方 格 的 所 有 可 能 图 像 。 
下 面 还 定义 了 一 些 与 捕捉 的 扫雷 图 像 相关 的 数据 : (X0, Y0) 为 雷 区 左上 角 像 素 的 坐标 , SIZE 


为 每 个 正 


方形 方 格 的 边 长 ，COLS 为 雷 区 中 方 格 的 列 数 ，ROWS 为 行 数 。 


@ 通 过 np.s_ 可 以 定义 一 个 切片 元 组 以 方便 提取 和 雷 区 部 分 的 图 像 。@mine_numbers.png 是 由 
8 幅 12X12 的 方 格 图 像 在 垂直 方向 上 合并 而 成 的 ， 因 此 其 形状 为 (8*12, 12, 3)。 


import cv2 


Xx0, Ye, SIZE, COLS, ROWS = 30, 30, 18, 30, 16 
SHAPE = ROWS, SIZE, COLS, SIZE, -1 


mine : 


area = np.s_[Y8:Y8 + SIZE * ROWS，X6:X8 + SIZE * COLS, :] © 


img_init = cv2.imread("mine_init.png")[mine_area] 
img_mine = cv2.imread("mine81.png")[mine_area] 
img_numbers = cv2.imread("mine numbers.png”") © 
img_numbers. shape 


(96， 


12，3) 


下 面 找 出 img_init 和 img_mine 两 幅 图 像 中 像素 值 不 同 的 点 ， 得 到 一 个 形状 为 (HSIZE，W， 


SIZE, 3) 


的 数组 mask。 该 数组 中 的 第 1、 第 3、 第 4 轴 对 应 原始 图 像 中 的 某 个 方块 , 例如 mask[2, :， 


6,: :与 第 3 行 第 7 列 的 方块 对 应 。 对 mask 中 这 三 个 轴 上 的 数据 求 均值 ， 就 得 到 了 img_mine 与 
img_init 中 每 个 方块 的 差异 。 当 差异 大 于 某 个 阔 值 时 ， 我 们 认为 img_mine 中 对 应 的 方块 被 打开 


了 。 图 11-3 


2 显示 了 block_mask 与 原始 图 像 ， 可 以 看 出 block_mask 中 的 Tue 与 已 打开 方块 是 一 


一 对 应 的 。 


LE 


可 以 通过 plhist0 绘 制 mask_mean 数组 的 直方 图 ， 找 到 最 住 阅 值 。 


全 将 
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mask = (img init != img mine).reshape(SHAPE) 
mask_mean = np.mean(mask, axis=(1, 3, 4)) 
block mask = mask_mean > 6.3 


fig, axes = pl.subplots(1, 2, figsize=(12, 4)) 
axes[8].imshow(block_mask, interpolation="nearest", cmap="gray") 
axes[1].imshow(img mine[:, :, ::-1]) 

axes[8].set_ axis off() 

axes[1].set axis off() 

fig.subplots_adjust(wspace=6.61) 


| 
FF 


图 11-32 计算 已 打开 方块 的 位 置 


下 面 调用 scipyspatial.distance0 比 较 每 个 方块 中 的 图 片 与 img_numbers 中 的 差别 ， 并 选择 差 
别 最 小 的 下 标 作为 方块 中 的 数字 numbers， 数 字 所 在 的 行 与 列 保存 在 rows 和 cols 数组 中 ， 效 果 
如 图 11-33 所 示 。 为 了 减少 干扰 ， 程 序 中 将 每 个 方块 的 四 边 都 减少 3 个 像素 。 这 段 程 序 运用 
reshape0 和 swapaxes0 实 现 多 维 数组 轴 和 形状 的 转换 ， 如 果 读 者 对 这 段 程序 感到 困惑 ， 请 参考 
NumpPy 一 章 的 相关 小 节 。 


from scipy.spatial import distance 


img_mine2 = np.swapaxes(img_mine.reshape(SHAPE)，1，2) 


blocks = img_mine2[block_mask][:，3:-3，3:-3，:].copy() 
blocks = blocks.reshape(blocks.shape[6]，-1) 


nn 


| 


img_numbers.shape = 8, -1 


numbers = np.argmin(distance.cdist(blocks, img numbers), axis=1) 
rows, cols = np.where(block_mask) 


下 面 用 本 书 提供 的 draw_grid0 函 数 绘制 识别 出 的 数字 : 


from scpy2.matplotlib import draw_grid 

table = np.full((ROWS, COLS), u" ", dtype="unicode") 
table[rows, cols] = numbers.astype(unicode) 
draw_grid(table, fontsize=12) 
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图 11-33 识别 扫雷 界面 中 的 数字 


2. 用 SAT 扫雷 


根据 方块 周围 的 相 邻 方块 数 ， 可 以 分 为 如 下 三 类 : 

@ 角 方 块 : 位 于 4 个 角 的 方块 ， 它 们 只 有 3 个 与 之 相 邻 的 方块 。 
e 边 方块 : 位 于 4 边 上 的 方块 ， 它 们 有 5 个 相 邻 的 方块 。 

e 一 般 方块 : 其 他 的 方块 均 有 8 个 相 邻 的 方块 。 


每 个 方块 中 的 数字 对 其 相 邻 方块 中 地 雷 的 可 能 组 合 提供 了 约束 条 件 ,如 果 能 用 或 与 表达 式 
表示 所 有 这 些 约 束 条 件 ， 就 可 以 用 SAT 对 扫雷 问题 进行 求解 。 下 面 以 8 个 相 邻 方块 为 例 ， 介 绍 


我 们 用 序号 为 1 到 8 的 逻辑 变 
风 辑 表示 8 个 逻辑 变量 中 有 3 个 为 真 : 


示 某 个 方块 周围 的 8 个 方块 中 是 否 有 雷 。 可 


[以 用 下 面 的 


e 任意 取 4 个 变量 ， 这 4 个 变量 不 可 能 同时 为 真 。 例 如 ， 如 果 选 择 A、B、C、D 这 4 个 
变量 ， 则 ~(A & B &C&DD) 表 示 它 们 不 全 是 真 ， 展 开 之 后 得 到 ~A1~B1~C1~D。 
e 任意 取 6 个 变量 ， 至 少 有 一 个 为 真 。 如 果 用 A、B、C、D、E、F 表 示 这 6 个 变量 ， 则 


AIBICIDIEIF 表示 它们 中 至 少 有 一 个 为 真 。 


上 面 所 有 条 件 之 间 都 用 与 运算 连接 ， 而 每 个 子 句 都 是 用 或 运算 表示 ， 因 此 整个 表达 式 为 合 
而 的 程序 中 用 combinations0 穷 举 所 有 4 个 变量 和 6 个 变量 的 组 合 ， 并 添加 相应 的 逻辑 表 


达 式 。 可 以 看 到 解 中 包括 3 个 1， 表 示 有 三 个 逻辑 变量 为 真 ， 即 有 三 个 地 雷 
satiter_solve0， 可 穷 举 所 有 三 个 地 雷 的 组 合 。 


避 | 


variables = range(1, 9) 
from itertools import combinations 


clauses = [] 
for vs in combinations(variables, 4): 


。 如 果 调 


蛮 将 
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clauses.append([-x for x in vs]) 


for vs in combinations(variables, 6): 
clauses.append(vs) 


sat = CoSAT() 
sat.add_clauses(clauses) 
sat.solve() 
人 


在 生成 用 于 SAT 求解 的 逻辑 表达 式 之 前 ， 我 们 先 为 每 个 方 格 设置 一 个 逻辑 变量 的 编号 。 
编号 从 左上 角 的 方 格 为 1 开始 ， 右 下 角 的 方 格 的 编号 为 COLS * ROWS。 根 据 下 面 的 算式 可 以 


将 编号 转换 为 方 格 所 在 的 行 和 列 : 
e 行 号 =( 编 号 -1)//COLS 
ee 列 号 =( 编 号 -D % COLS 


- 维 数组 variables 中 保存 逻辑 变量 的 编号 ， 而 variable_neighbors 字典 保存 与 每 个 方 格 编号 


相 邻 的 方 格 的 编号 。 
from collections import defaultdict 
variable_neighbors = defaultdict(list) 


directs = [(-1, -1), (-1, 8), (-1, 1), (@, 


-1)， 


(96，1)，(1，-1)，(1， 6)，(1， 1)] 


variables = np.arange(1, COLS * ROWS + 1).reshape(ROWS, COLS) 


for (i, j), v in np.ndenumerate(variables): 
for di, dj in directs: 
Fon 
j2=j+dj 
if @ <= i2 < ROWS and 8 <= j2 < COLS: 


variable_neighbors[v].append(variables[i2, j2]) 


下 面 查 看 与 编号 为 50 的 方 格 相 邻 的 方 格 的 编号 : 


variable_neighbors[58] 
[19, 20, 21, 49, 51, 79, 80, 81] 


variable_neighbors 字典 以 及 前 面 介绍 的 4 


E 成 逻辑 表达 式 的 方法 ， 很 容易 编写 如 下 


get_clauses(Var_id, num) 函 数 。 它 返回 编号 为 var_id 


的 方块 


P 的 数字 为 num 时 的 逻辑 表达 式 。 


def get_clauses(var_id，num) : 
clauses = [] 
neighbors = variable neighbors[var_id] 
neg_neighbors = [-x for x in neighbors] 
Clauses.extend(combinations(neg neighbors, num + 1)) 
clauses .extend(combinations(neighbors, len(neighbors) - num + 1)) 
clauses.append([-var_id]) 
return clauses 


| 旦 。 


扫雷 游戏 与 前 面 介绍 的 逻辑 问题 不 同 ， 它 并 不 是 要 找到 一 组 可 能 的 解 ， 而 是 要 找到 绝对 
雷 以 及 绝对 不 是 雷 的 方块 。 下 面 是 CoSAT 中 实现 这 一 功能 的 get_failed_assumes0 方 法 。 它 对 每 
个 逻辑 变量 进行 循环 并 调用 picosat_assume0， 假 设 该 逻辑 变量 为 假 或 为 真 ， 并 分 别 调用 
picosat_sat0 计 算 实施 假设 之 后 是 否 有 解 。 如 果 无 解 ， 则 表示 该 还 辑 变量 不 可 能 为 假 或 真 。 使 用 
picosat_assume0 的 好 处 是 每 次 调用 picosat_sat0 之 后 假设 将 自动 被 重 置 。 

getfailed_assumes0 返 回 所 有 失败 的 假设 ， 因 此 返回 值 为 负数 表示 该 逻辑 变量 必须 为 真 ， 而 
正 数 表示 必须 为 假 。 


def get_ failed assumes(self): 
cdef int max_index 
cdef int ret1, ret@ 
cdef list assumes = [] 
self.build_sat() 
max_index = picosat_variables(self.sat) 
for i in range(1, max_index+1): 
picosat_assume(self.sat, i) 
ret1 = picosat_sat(self.sat, -1) 
picosat_assume(self.sat, -i) 
ret@ = picosat_sat(self.sat, -1) 
if ret@ == PICOSAT_UNSATISFIABLE: 
assumes.append( -i) 
if ret1 == PICOSAT_UNSATISFIABLE: 
assumes.append(i) 
return assumes 


最 后 对 所 有 已 打开 的 方 格 计算 逻辑 表达 式 ， 并 添加 进 SAT 求解 器 ， 然 后 利用 
get_failed_assumes0 找 到 所 有 失败 的 假设 failed_assumes。 对 于 其 中 未 打开 的 方 格 ， 正 数 表示 不 是 
雷 ， 用 “ 女 ” 表 示 ; 负数 表示 是 雷 ， 用 “se” 表 示 。 


sat = CoSAT() 

for var_id, num in zip(variables[rows, cols], numbers): 
sat.add_ clauses(get clauses(var_id, num)) 

failed assumes = sat.get failed assumes() 


列 将 
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for v in failed assumes: 
av = abs(v) 
col = (av - 1) % COLS 
row = (av - 1) // COLS 
if table[row, col] == u" ": 
df VS 
table[row，col] = u" 戏 
else: 
table[row, col] = u"® 
draw_grid(table, fontsize=12) 


于 于 有 上 
| 引 。|?| 1 引 ?| 6 


太 | 3| @ 
e|3|1 


上 


wu| 
Wu 
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| [elrlelN| el 


[ul NI SlolN| ole 
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NIOIO| -| | 一 | 口 一 | NJ| 
四 轿 忆 已 国 区 四 已 eld 
IWIN | =|N| NININIG| 
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图 11-34 使 用 SAT 求解 器 推断 方 格 中 是 否 有 地 雷 


3. 自动 扫雷 
本 书 提供 了 一 个 自动 扫雷 实例 程序 , 它 能 够 自动 启动 扫雷 游戏 , 并 自动 操纵 鼠标 进行 扫雷 。 


本 scpy2.examples.automine: 在 Windows 7 系统 下 自动 扫雷 ， 需 将 扫雷 游戏 的 难度 设 
回回 置 为 高 级 (99 个 雷 )， 并 且 关闭 “显示 动画 "、“ 播 放声 音 ” 以 及 “显示 提示 ”等 选项 。 


当 程 序 无 法 确定 可 以 打开 的 方块 时 ， 将 随机 点 开 任意 的 方块 。 为 了 实现 更 高 的 成 功率 ， 读 
者 可 以 尝试 在 剩余 非常 少 的 雷 时 ， 穷 举 所 有 的 可 能 解 ， 并 计算 每 个 方块 是 雷 的 概率 ， 选 择 点 击 
概率 最 小 的 那个 方块 。 
除了 本 节 介 绍 的 cycosat 扩 展 库 之 外 ， 程 序 中 还 使 用 了 如 下 扩展 库 : 
@ ”scpy2.utils.autoit: 使 用 ctypes 标准 库 对 Autolt 提供 的 DLL 进行 包装 ， 提 供 了 自动 扫雷 所 
需 的 基本 Windows 自动 化 功能 。 


。 win32gui: 获取 游戏 界面 所 在 的 位 置 。 
。 pilow: 读 取 PNG 图 像 文件 以 及 捕捉 屏幕 中 的 游戏 界面 。 


11.6 分 形 


A 与 本 节 内 容 对 应 的 Notebook 为 : 11-examples/examples-600-fractalipynb。 


自然 界 中 的 很 多 事物 ， 例 如 树木 、 云 彩 、 山 脉 、 闪电、 雪花 以 及 海岸 线 等 都 呈现 出 传统 儿 
何 学 难以 描述 的 形状 。 这 些 形状 都 有 如 下 特性 : 

。 有 着 十 分 精细 的 不 规则 的 结构 。 | 

e 整体 与 局 部 相似 ， 例 如 一 根 树 权 的 形状 和 一 棵 树 很 像 。 : 实 

分 形 几 何 学 就 是 用 来 研究 这 样 一 类 几何 形状 的 科学 ， 借 助 计算 机 的 高 速 计算 和 图 像 显示 ， 
我 们 可 以 更 深入 、 更 直观 地 研究 分 形 几何 。 作 为 本 书 的 最 后 一 节 ， 我们 看 看 如 何 使 用 Python 给 
制 一 些 经 典 的 分 形 图 形 。 


11.6.1 ”Mandelbrot 集合 


Mandelbrot( 曼 德 布 洛 特 ) 集 合 是 在 复 平面 上 构成 分 形 图 案 的 点 的 集合 。 它 可 以 用 下 面 的 复 二 
次 多 项 式 定义 : 
fc(z) =Z2 十 c 
其 中 复数 函数 fc(z) 的 自 变量 为 z。 而 c 是 一 个 复数 参数 ， 对 于 每 一 个 c， 从 z = 0 开始 对 函数 
fc(z) 进 行 迭 代 。 序 列 (0, fc(0), fc(fe(0)), …) 的 值 或 者 延伸 到 无 限 大 ， 或 者 只 停留 在 有 限 半径 的 
圆 稚 内 。Mandelbrot 集合 就 是 使 以 上 序列 不 发 散 的 所 有 参数 c 的 集合 。 
从 数学 上 来 讲 ，Mandelbrot 集合 是 一 个 复数 的 集合 。 一 个 给 定 的 复数 c 或 者 属于 Mandelbrot 
集合 ， 或 者 不 是 。 但 是 用 程序 绘制 Mandelbrot 集 合 时 不 能 进行 无 限 次 迭代 ， 最 简单 的 方法 是 使 
逃逸 时 间 (迭代 次 数 ) 进 行 绘制 ， 具 体 算法 如 下 : 
e 判断 每 次 调用 函数 fc(z) 得 到 的 结果 是 否 在 半径 R 之 内 ， 即 复数 的 模 是 否 小 于 R。 
e 记录 下 迭代 结果 的 模 值 大 于 了 时 的 大 代 次 数 ， 也 称 之 为 逃逸 时 间 。 
。 旭 代 最 多 进行 N 次 。 
e 不 同 迭 代 次 数 的 点 使 用 不 同 的 颜色 绘制 。 
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1. 纯 Python 实现 


下 面 是 完整 的 绘制 Mandelbrot 集合 的 程序 ， 它 所 绘制 的 图 案 如 图 11-35 所 示 。 


from matplotlib import cm 


def iter point(c): © 
z=c 
for i in xrange(1，166): # 最 多 迭代 168 次 
if abs(z) > 2: break # 半径 大 于 2 则 认为 逃逸 
:区 
return i # 返回 迭代 次 数 


def mandelbrot(Cx，cy，d，n=266) : 
X8，X1，y8，y1 = cx-d, cx+d, cy-d, cy+d 
汪 y, x = np.ogrid[ye:y1:n*1j, x@:x1:n*1j] 
c=x+y*1je®© 
return np.frompyfunc(iter_point,1,1)(c).astype(np.float) @ 


def draw_mandelbrot(cx，cy，d，n=266): @ 


绘制 点 (cx，cy) 附 近 正 负 d 范围 内 的 Mandelbrot 


pl.imshow(mandelbrot(cx, cy, d, n), cmap=cm.Blues r) © 


pl.gca().set axis off() 
x, y = 0.27322626, 0.595153338 


pl.figure(figsize=(9, 6)) 
pl.subplot(231) 
draw_mandelbrot(-6.5, 8, 1.5) 
for i in range(2,7): 
pl.subplot(238+i) 
draw_mandelbrot(x, y, 0.2**(i-1)) 
pl.subplots_adjust(8, 8, 1, 1, 80.0, 96) 


694 ， 


| 


了 


图 11-35 Mandelbrot 集合 ， 以 5 倍 的 倍率 放大 点 (0273, 0.595) 附 近 


@@ 函 数 iter point0 计 算 点 c 的 逃逸 时 间 ， 和 逃逸 半径 R 为 20， 最 大 迭代 次 数 为 100。 
@draw_mandelbrot0 绘 制 以 点 (cx, cy) 为 中 心 ， 边 长 为 2*d 的 正方 形 区 域内 的 Mandelbrot 集合 的 

人 @ 计 算 指定 范围 内 的 参数 c， 它 是 一 个 二 维 的 复数 数组 ， 形 状 为 (200, 200)。 这 里 用 ogrid 对 
象 快 速 产生 实 部 和 虚 部 网 格 x 和 y， 然 后 通过 广播 运算 得 到 数组 c。 

@ 接 下 来 通过 frompyfunc0 将 iter_point0 转 换 为 ufunc 函数 , 这 样 它 可 以 自动 对 c 中 的 每 个 元 
素 调用 iter_point0 进 行 运算 。 由 于 结果 数组 的 元 素 类 型 为 object, 还 需要 调用 astype0 将 其 元 素 类 
型 转换 为 浮 点 数 类 型 。 @ 最 后 调用 imshow0 将 结果 数组 绘制 成 图 , 通过 关键 字 参 数 cmap 指定 颜 
色 映 射 表 。 

2. 用 Cython 提速 


使 用 Python 绘制 Mandelbrot 集 合 ， 最 大 的 问题 就 是 运算 速度 太 慢 : 


主将 


%timeit mandelbrot(-8.5，6，1.5) 
1 loops, best of 3: 398 ms per loop 


而 由 于 iter_point0 函 数 中 存在 迭代 ,无 法 将 其 转换 成 Numpy 的 数组 运算 。 下 面 我 们 用 Cython 
下 新 编写 iter_point0。 

首先 为 Python 的 iter_point0 中 的 各 个 变量 一 ce、z、i 添 加 类 型 声明 ， 然 后 调用 %timeit 查看 
运行 速度 ， 发 现 速度 提高 得 不 是 很 明显 。 用 %96cython -a 查看 编译 之 后 的 C 语 言 源 代码 ， 你 会 
发 现 abs(z) 调 用 Python 的 abs0 函 数 ， 该 函数 限制 了 运行 速度 。 


%%cython 
def iter point(complex c): 
cdef complex z= C 
cdef int i 
for i in range(1, 1060): 
if z.real*z.real + z.imag*z.imag > 4: break © 
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[和 


return i 


@ 将 计算 复数 绝对 值 的 代码 修改 为 实数 部 分 的 平方 与 虚数 部 分 的 平方 之 和 后 ， 运 行 速度 提 


高 了 近 40 倍 : 
%timeit mandelbrot(-8.5, 80, 1.5) 
166 loops, best of 3: 8.89 ms per loop 
3. 连续 的 逃逸 时 间 


修改 逃逸 半径 R 和 最 大 迭代 次 数 N， 可 以 绘制 出 不 同 


效果 的 Mandelbrot 集合 图 案 。 但 是 前 


述 方法 计算 出 的 逃逸 时 间 是 大 于 逃逸 半径 时 的 友 代 次 数 ， 


色 值 ， 有 很 强 的 梯度 感 。 为 了 在 不 同 的 梯度 之 间 进 行 渐变 处 理 ， 


时 间 : 
| n — log2log2|zn| 
宕 | zn 是 迭代 n 次 之 后 的 
整数 ， 而 是 平滑 渐变 的 。 下 面 是 计算 此 逃逸 时 间 的 程序 : 
%%cython 


from libc.math cimport log2 


def iter point(complex c): 

cdef complex z= < 

cdef int i 

cdef double r2, mu 

for i in range(1, 20): 
r2 = Zz.real*z.real + z.imag*z.imag 
if r2 > 166: break 
区 

if r2 > 4.6: 


mu = i - 1og2(6.5 * log2(r2)) 
else: 

mu = 守 
return mu 


雪 果 ， 通 过 在 逃逸 时 间 的 计算 中 引入 迭代 结果 的 模 值 ， 


ee 图 像 最 多 只 有 N 种 不 同 的 颜 
是 使 用 下 面 的 公式 计算 逃逸 


结果 将 不 再 是 


如 果 逃 逸 半径 设置 得 很 小 ， 例 如 20， 那 么 有 可 能 结 
后 添加 儿 次 迭代 ， 这 能 保证 z 的 模 值 足够 大 。 例 如 : 

z=ZzZ*ZzZ+cC 

z=ZzZ*ZzZ+c 


i+=2 


696 ， 


果 不 够 平滑 ， 这 时 可 以 在 迭代 循环 之 


图 11-36 是 逃逸 半径 为 10、 最 大 欠 代 次 数 为 20 的 结果 。 


pl.figure(figsize=(8, 8)) 
draw_mandelbrot(-8.5，6，1.5，n=666) 


图 11-36 平滑 处 理 后 的 Mandelbrot 集合 :逃逸 半径 =10， 最 大 人 迭代 次 数 =20 
4. Mandelbrot 演示 程序 


为 了 实时 计算 Mandelbrot 集合 的 图 像 ， 我 们 需要 更 快 的 运算 速度 ， 可 以 将 所 有 的 循环 都 使 
| Cython 编写 。 本 书 提供 了 用 matplotlib 制作 的 实时 绘制 Mandelbrot 集合 的 演示 程序 ， 界 面 截 
图 如 图 11-37 所 示 。 


Fiare 210, 497 


图 11-37 实时 绘制 Mandelbrot 集 合 的 演示 程序 
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(会 scpy2.examples.fractal.mandelbrot_demo: 使 用 TraitsUI 和 matplotlib 实时 绘制 Mandelbrot 
[AD 图 像 ， 按 住 筷 标 左 键 进行 平移 ， 使 用 饼 标 滚 轴 进 行 缩放 。 


下 面 是 计算 Mandelbrot 集合 图 像 的 Cython 函数 。 该 函数 所 在 模块 的 完整 路 径 为 
| scpy2.examples.fractal fastfractal。 参 数 cx 和 cy 是 复 平 面 上 的 计算 范围 的 中 心 点 ， 参 数 4 是 中 心 点 
| 到 计算 边界 的 实 轴 上 的 长 度 ， 参 数 out 是 保存 计算 结果 的 二 维 数组 。 如 果 不 指定 out， 则 需 通 过 
h 和 w 参 数 指定 返回 数组 的 大 小 。 参 数 n 为 最 大 欠 代 次 数 ，R 为 逃逸 半径 。 


from libc.math cimport log2 
import numpy as np 
import cython 


cdef double iter point(complex c, int n, double R): 
cdef complex z= Cc 
cdef int i 


cdef double r2, mu 

cdef double R2 = R*R 

for i in range(1, n): 
r2 = z.real*z.real + z.imag*z.imag 
if r2 > R2: break 
re 

if m2 .940 


! mu 


= i - log2(0.5 * log2(r2)) 
| else: 
| mu = 守 
| return mu 


def mandelbrot(double cx, double cy, double d, int h=6，int w=6， 
double[:, ::1] out=None, int n=20, double R=16.6) : 
cdef double x@, x1, ye, yl1, dx, dy 
cdef double[:, ::1] r 
cdef int i, j 
cdef complex z 
x0, x1l, y6, yl = cx - d cx+d,cy-d,cy+d 
if out is not None: 
r= Out 
else: 


r= np.zeros((h, w)) 
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h, w= r.shape[8], r.shape[1] 
dx = (x1 - x0) / (w - 1) 
dy = (yl - ye) / (h - 1) 
for i in range(h): 
for j in range(w): 
z.img = yO +i*dy 
z.real = xO + j * dx 
r[i, j] = iter point(z, n, R) 
return r.base 


11.6.2 ”和 迭代 函数 系统 
迭代 函数 系统 是 一 种 创建 分 形 图案 的 简单 算法 ， 它 所 创建 的 分 形 图 永远 是 绝对 自 相 似 的 。 
F 面 以 绘制 某 种 蕨 类 植物 叶子 的 图 案 为 例 ， 介 绍 迭 代 函 数 系统 算法 以 及 如 何 用 Python 实现 。 
有 下 面 4 组 线性 函数 用 于 对 二 维 平面 上 的 坐标 进行 线性 变换 : 


全 将 


1. 

x(n+1)= 6 

y(n+1) = 9.16 * y(n) 
2。 

x(n+1) = 9.2 * x(n) - 9.26 * y(n) 

y(n+1) = 9.23 * x(n) + 9.22 * y(n) + 1.6 
3。 

x(n+1) = -6.15 * x(n) + 9.28 * y(n) 

y(n+1) = 9.26 * x(n) + 9.24 * y(n) + 8.44 
4. 


x(n+1) = 6.85 * x(n) + 9.64 * y(n) 
y(n+1) = -6.64 * x(n) + 6.85 * y(n) + 1.6 


所 谓 迭 代 函 数 系统 ， 是 指 将 函数 的 输出 再 次 当 作 输 入 进行 兴 代 计算 ， 因此 上 面 的 公式 都 是 
通过 坐标 x(n), y(n) 计 算 变 换 后 的 坐标 xo+D, ym+1)。 问 题 是 有 4 个 迭代 函数 ， 夫 代 时 选择 哪个 
函数 进行 计算 呢 ? 我 们 为 每 个 函数 指定 一 个 概率 值 ， 它 们 依次 为 1%、7%、7% 和 85%。 通 过 每 
个 函数 的 概率 随机 选择 一 个 函数 进行 迭代 。 在 上 面 的 例子 中 ， 第 4 个 函数 被 选择 进行 迭代 的 概 
最 后 我 们 从 坐标 原点 (0, 0) 开 始 迭 代 ， 绘制 每 次 迭代 后 得 到 的 坐标 点 ， 就 得 到 了 迭代 函数 系 
统 的 分 形 图 案 。 下 面 的 程序 演示 了 这 一 计算 过 程 : 


%config InlineBackend.figure format = 'png" 
eql = np.array([[8,8,8], [8,8.16,6]]) 
pl = 9.61 
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eq2 = np.array([[86.2,-8.26,6],[6.23,6.22,1.6]]) 
p2 = 6.67 


eq3 = np.array([[-8.15，6.28，6],[6.26,6.24,6.44]]) 
p3 = 6.67 


eq4 = np.array([[98.85, 8.64, 8],[-8.64, 8.85, 1.6]]) 
p4 = 6.85 


def ifs(p, eq, init, n): 
进行 函数 迭代 
p: 每 个 函数 的 选择 概率 列表 
eq: 迭代 函数 列表 
init: 友 代 初始 点 
人 。 洪 代 次 产 
而 | n: 迭代 次 数 


返回 值 : 每 次 迭代 所 得 的 X 坐标 数组 、Y 坐标 数组 ， 计 算 所 用 的 函数 下 标 


# 迭代 向 量 的 初始 化 
pos = np.ones(3, dtype=np.float) © 
pos[:2] = init 


# 通过 函数 概率 ， 计 算 函 数 的 选择 序列 

p = np.cumsum(p) 

rands = np.random.rand(n) 

select = np.searchsorted(p, rands) © 


# 结果 的 初始 化 
result = np.zeros((n,2), dtype=np.float) 
c = np.zeros(n, dtype=np.float) 


for i in xrange(n): 
eqidx = select[i] # 所 选 的 函数 下 标 
tmp = np.dot(eq[eqidx]，pos) # 进行 迭代 
pos[:2] = tmp # 更 新 迭代 向 量 


# 保存 结果 
result[i] = tmp 
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c[i] = eqidx 
return result[:,8], result[:, 1], c¢ 


x, y, €¢ = ifs([p1,p2,p3,p4]，[eql,eq2,eq3,eq4]，[9,6]，166666) 
fig, axes = pl.subplots(1, 2, figsize=(6, 5)) 
axes[8@].scatter(x, y, s=1, c="g", marker="s", linewidths=0) © 
axes[1].scatter(x, y, s=1, c=c, marker="s", linewidths=0) © 
for ax in axes: 

ax.set_aspect("equal") 

ax.Sset_ylim(6，16.5) 

ax.axis("off") 
pl1.subplots_adjust(left=6,right=1,bottom=6,top=1,wspace=6,hspace=6) 


ifs0 是 进行 函数 迭代 的 主 函数 , @ 我 们 希望 通过 矩阵 乘法 计算 迭代 方程 的 输出 , 因此 需要 
将 乘法 向 量 扩充 为 三 维 : 这 样 每 次 和 迭代 函数 系数 进行 矩阵 乘积 运算 的 向 量 就 变 成 了 x(n)， 
y(n), 1.0。 

思 为 了 减少 计算 时 间 ， 不 在 欠 代 循环 中 计算 随机 数 选 择 迭 代 方 程 ， 而 是 事先 通过 每 个 函数 
的 概率 ， 计 算出 函数 选择 数组 select。 注 意 这 里 使 用 cumsum0 先 将 概率 累加 ， 然 后 产生 一 组 0 
到 1 之 间 的 随机 数 ， 通 过 判断 随机 数 所 在 的 概率 区 间 选 择 不 同 的 方程 下 标 。 

人 @ 最 后 调用 scatter0 将 得 到 的 坐标 绘制 成 散 列 图 ， 其 中 每 个 关键 字 参 数 的 含义 如 下 : 

e S: 每 个 散 列 点 的 大 小 ， 因 为 要 绘制 10 万 个 点 ， 为 了 提高 绘图 速度 ， 我 们 选择 点 的 大 小 

为 1 个 像素 。 

ec: 点 的 颜色 ， 这 里 选择 绿色 。 

e marker: 点 的 形状 ，"s" 表 示 正 方形 ， 方 形 的 绘制 是 最 快 的 。 

e linewidths: 点 的 边框 宽度 ，0 表示 没有 边框 。 

@ 此 外 ， 参 数 c 还 可 以 传 入 一 个 数组 ， 作 为 每 个 点 的 颜色 值 。 我 们 将 迭代 用 的 函数 下 标 传 
入 ， 这 样 可 以 直观 地 看 出 哪个 点 是 哪个 函数 迭代 产生 的 。 

图 11-38 是 程序 的 输出 , 观察 右 图 的 4 种 颜色 的 部 分 可 以 发 现 : 概率 为 1% 的 函数 1 所 计算 
的 是 叶 杆 部 分 (深蓝 色 )， 概 率 为 7% 的 两 个 函数 计算 的 是 左右 两 片子 叶 ， 而 概率 为 85% 的 函数 计 
算 的 是 整 片 叶 子 的 迭代 ,， 即 最 下 面 的 三 种 颜色 的 点 通过 此 函数 的 迭代 产生 上 面 所 有 的 深 红 色 的 
点 。 可 以 看 出 整 片 叶子 呈现 出 完美 的 自 相似 特性 ， 任 意 取 其 中 的 一 片子 叶 ， 将 其 旋转 放大 之 后 
都 和 整 片 叶子 相同 。 


全 将 
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图 11-38 函数 迭代 系统 所 绘制 的 艾 类 植物 的 叶子 
1.2D 仿 射 变换 
上 面 所 介绍 的 4 个 变换 方程 的 一 般 形式 如 下 : 


萱 将 


x(n+1) = A* x(n) + B* y(n)+C 
y(n+1) = D * x(n) + E * y(n)+F 


这 种 变换 被 称 为 2D 仿 射 变换 ， 它 是 从 2D 坐标 到 其 他 2D 坐标 的 线性 映射 ,保留 直 线性 和 
平行 性 。 即 原来 是 一 条 直线 上 的 点 ， 变 换 之 后 仍然 在 一 条 直线 上 ， 原 来 是 平行 的 直线 ， 变 换 之 
后 仍然 是 平行 的 。 这 种 变换 可 以 看 作 是 由 一 系列 平移 、 缩 放 、 翻 转 和 旋转 变换 构成 的 。 

可 以 使 用 平面 上 的 两 个 三 角形 直观 地 表示 仿 射 变换 。 因 为 仿 射 变换 公式 中 有 6 个 未 知 
数 一 A、B、C、D、E、F， 而 每 两 个 点 之 间 的 变换 是 两 个 方程 ， 因 此 一 共 需 要 3 组 点 来 决定 6 
个 变换 方程 ， 正 好 是 两 个 三 角形 ， 如 图 11-39 所 示 : 


图 11-39 两 个 三 角形 决定 一 个 2D 仿 射 变换 的 6 个 参数 


从 红色 三 角形 的 每 个 顶点 变换 到 绿色 三 角形 的 对 应 项 点， 正好 能 够 决定 仿 射 变 换 中 的 6 个 


参数 。 这 样 我 们 可 使 用 N+1 个 三 角形 ， 决 定 N 个 仿 射 变 换 ， 其 中 的 每 个 变换 的 参数 都 是 由 第 0 
个 三 角形 和 其 他 的 三 角形 决定 的 。 第 0 个 三 角形 被 称 为 基础 三 角形 ， 其 余 的 三 角形 被 称 为 变换 


三 角形 。 


为 了 绘制 迭代 函数 系统 的 图 像 ， 还 需要 给 每 个 仿 射 变换 方程 指定 欠 代 概率 。 此 参数 也 可 以 
使 用 三 角形 直观 地 表达 出 来 : 迭代 概率 和 变换 三 角形 的 面积 成 正比 ， 即 迭代 概率 为 变换 三 角形 


的 面积 除 以 所 有 变换 三 角形 的 面积 之 和 。 


如 图 11-40 所 示 ， 前 面 介绍 的 蕨 类 植物 的 分 形 图 案 的 迭代 方程 由 5 个 三 角形 决定 ， 可 以 很 
直观 地 看 出 紫色 的 小 三 角形 决定 了 叶子 的 茎 ; 而 两 个 蓝 色 的 三 角形 决定 了 左右 两 片子 叶 ; 绿色 


的 三 角形 将 茎 和 两 片子 叶 往 上 复制 ， 形 成 整 片 叶子 。 


Rt 
[En 三 角形 | [Mh 三 角形 | [ 藉 关 植物 _“] [保存 当前 FS] | 册 球 当 NF [YGnBu = 


Axes: 70.585 86802 


图 11-40 5 个 三 角形 的 仿 射 方程 绘制 茧 类 植物 的 叶子 
2. 迭代 函数 系统 设计 器 
按照 上 节 所 介绍 的 三 角形 法 ， 我 们 可 以 编写 一 个 迭代 函数 系统 的 设计 了 


[ 具 。 月 


有 户 通过 程序 


界面 绘制 或 修改 一 组 三 角形 ,程序 计算 这 组 三 角形 所 对 应 的 迭代 方程 组 的 系数 ， 并 实时 地 绘制 


迭代 图 案 。 图 11-40 是 本 书 提 供 的 设计 迭代 函数 分 形 系 统 的 程序 界面 截图 。 


(全 scpy2.examples fractalifs_ demo: 和 迭代 函数 分 形 系统 的 演示 程序 ， 通 过 修改 左 侧 三 角形 
[pvo] 


[ 呈 昌 的 顶点 实时 地 计算 坐标 变换 矩阵 ， 并 在 右 侧 显示 达 代 结果 。 


可 


系数 ， 相 当 于 求 六 元 线性 方程 组 的 解 ， 这 个 计算 通过 solve_eq0 完 成 ， 它 先 计算 出 线性 


矩阵 a 和 b， 然 后 调用 Numpy 的 linalg.solve0 对 线性 方程 组 a，x=b 求 解 : 


硬 简 要 地 介绍 该 演示 程序 中 用 到 的 一 些 函 数 和 类 。 首先 通过 两 个 三 角形 求解 仿 射 方程 的 


方程 组 的 
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def solve eq(trianglel1, triangle2): 


解 方程 ， 从 trianglel 变换 到 triangle2 的 变换 系数 
trianglel、triangle2 是 二 维 数组 : 


X9,y9 
XL5y 
x2,y2 


x0, y9 = trianglel[6] 
x1, yl = triangle1[1] 
x2, y2 = triangle1[2] 


a = np.zeros((6, 6), dtype=np.float) 
b = triangle2.reshape(-1) 
a[e, 8:3] = x8@, ye, 1 
a[1, 3:6] = x0, ye, 1 


a[2, 8:3] = x1, yl1, 
EE 
a[4, 8:3] = x2, y2, 
a[5, 3:6] = x2, y2, 


于 
$ 
本 


x = np.linalg.solve(a, b) 


x.shape = (2, 3) 
return x 


每 个 仿 射 方程 的 迭代 概率 与 对 应 三 角形 的 面积 成 正比 ， 三 角形 的 面积 通过 triangle_area0 计 
算 ， 它 使 用 NumPy 的 cross0 计 算 三 角形 的 两 个 边 的 矢量 的 又 积 ; 


def triangle area(triangle): 


计算 三 角形 的 面积 


A, B, C = triangle 


AB=A-B 
AC=A-C 


return np.abs(np.cross(AB, AC)) / 2.6 


绘图 界面 采用 matplotlib 绘图 库 ， 由 于 绘制 大 量 散 列 点 会 导致 界面 刷新 速度 变 慢 ， 因 此 在 


本 演示 程序 中 对 人 迭代 生成 


提高 程序 运行 速度 ,方程 迭代 Lb 


的 坐标 点 进行 二 维 直 方 图 统计 ， 并 使 用 imshow0 绘 制 统计 结果 。 为 了 
二 维 直 方 图 统计 均 在 Cython 编写 的 IFS 扩展 类 中 实现 。 下 面 


通过 一 个 例子 说 明 这 些 函数 的 用 法 。IFS 扩 


@ 在 下 而 的 triangles 


展 类 的 源 代码 可 以 在 fastfractalpyx 中 找到 。 


FP 保存 着 3 个 三 


形 的 顶点 坐标 ， 其 中 第 一 个 三 角形 为 基础 三 角形 ， 


后 两 个 三 角形 为 变换 三 角形 。@ 调 用 triangle_area0 计 算 每 个 变换 三 角形 的 面积 ， 并 用 面积 和 归 
一 化 得 到 每 个 三 角形 的 迭代 概率 p。 人 @ 调 用 solve_eq0 得 到 从 基础 三 角形 到 变换 三 角形 的 仿 射 变 
换 和 矩阵 ， 并 将 所 有 反射 变换 矩阵 按照 第 0 轴 连 接 成 一 个 形状 为 (4, 3) 的 数组 eqs。 数 组 中 的 每 两 
行 表示 一 个 迭代 方程 的 系数 。 

@ 创 建 IFSO 对 象 ， 其 前 两 个 参数 分 别 为 三 角形 的 迭代 概率 和 迭代 系数 ， 第 3 个 参数 为 每 次 
调用 update0 方 法 的 迭代 次 数 ，size 参数 为 二 维 直方 图 统计 结果 数组 的 长 轴 的 长 度 。@ 每 次 调用 
update0 方 法 都 迭代 指定 的 次 数 , 并 返回 更 新 后 的 直方 图 统计 结果 。counts 是 一 个 形状 为 (600, 477) 
的 整数 数组 。@ 为 了 更 清晰 地 显示 统计 结果 ， 这 里 使 用 对 数 正规 化 对 象 LogNorm 对 counts 中 芯 
值 进行 正规 化 。 由 于 0 的 对 数值 为 负 无 穷 , 因此 counts 中 保存 的 值 实际 上 是 直方 图 统计 值 加 1。 
旦 序 的 输出 如 图 11-41 所 示 。 


SS 


from scpy2.examples.fractal.ifs_demo import solve_eq，triangle_area 
from scpy2.examples.fractal.fastfractal import IFS 


triangles = np.array([ 0 

[-1.945392491467576，-5.331616452961673] ， 
[6.169215617664848，-8.87168861393728236] ， 
[-1.1945392491467572，5.4668696864111497] ，, 
[-2.5597269624573373，-4.21662787456446] ，, 
[5.426621166469557，-2.125435546669687] ， 
[8.5119453924914676，4.912891986662718] , 
[3.5836177474462735，8.397212543554665] ，, 
[4.8614334476989775，5.121951219512194] , 
[8.56655298162389，4.7638327526132395]]) 


base_triangle = triangles[:3] 
trianglel = triangles[3:6] 
triangle2 = triangles[6:] 


areal = triangle_area(trianglel) ©@ 
area2 = triangle_area(triangle2) 
total_area = areal + area2 


p= [areal / total area, area2 / total_areal] 


eql = solve_eq(base triangle, triangle1) © 
eq2 = solve_eq(base triangle, triangle2) 
eqs = np.vstack([eq1, eq2]) 

ifs = IFS(p，eqs，2666666，size=666) @ 
counts = ifs.update() 日 
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print "shape of counts:", counts.shape 

from matplotlib.colors import LogNorm 

fig, ax = pl.subplots(figsize=(5, 8)) 

pl.imshow(counts, cmap="Blues", norm=LogNorm(), origin="lower") © 
ax.axis("off") 

shape of counts: (666，477) 


入 


图 11-41 使 用 IFS 类 绘制 迭代 函数 系统 

11.6.3 ”L-System 分 形 

前 面 所 绘制 的 分 形 图 案 都 是 使 用 数学 函数 的 迭代 产生 的 , 而 L-System 分 形 则 采用 符号 的 递 
归 进 代 产 生 。 首 先 定义 如 下 几 个 有 含义 的 符号 ; 

e F: 向 前 走 固 定单 位 

e +: 正方 向 旋转 固定 角度 

e 一: 负 方 向 旋转 固定 角度 

使 用 这 三 个 符号 很 容易 描述 图 11-42 中 左上 方 由 4 条 线段 构成 的 图 案 : 


F+F--F+F 
如 果 将 此 符号 串 中 的 所 有 下 都 替换 为 FHF--F+F， 就 能 得 到 如 下 新 字符 号 


F+F--F+F+F+F--F+F--F+F--F+F+F+F--F+F 


如 此 蔡 换 欠 代 下 去 , 并 根据 字 串 进行 绘图 (符号 + 和 -分 别 正 负 旋转 60 度 ), 可 得 到 如 图 11-42 
右 下 方 的 分 形 图 案 : 


0 
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图 11-42 使 用 FHF_F+F 和 迭代 的 分 形 图 案 
除了 F、+、- 之 外 我 们 再 定义 如 下 几 个 符号 : 
e f 与 F 的 含义 相同 ， 向 前 走 固定 单位 ， 为 了 定义 不 同 的 迭代 公式 


。 [: 将 当前 的 位 置 入 堆栈 

e ]: 从 堆栈 中 读 取 坐标 ， 修 改 当前 位 置 

eS: 初始 迭代 符号 

所 有 的 符号 (包括 上 面 未 定义 的 ) 都 可 以 用 来 定义 迭代 ， 通 过 引入 两 个 方 括号 符号 ， 可 以 描 
述 分 岔 的 图 案 。 例 如 下 面 的 符号 迭代 能 够 绘制 出 一 棵 植物 : 


S -> X 


X -> F-[[X]+X]+F[+FX] 


F -> FF 


中 
x 


下 面 用 


rules = 


{ 


个 字典 定义 所 有 的 迭代 公式 和 其 他 的 一 些 绘图 信息 : 
[ 


"FE: "E+F--F+F", "S":"F", 
"direct":180, 

"angle" :66， 

ep 

"title":"Koch" 


WC CRVE TT Vs PX NAS EX 
"direct" :69， 

"angle" :96， 

iter 13 

"title":"Dragon" 


"finF-f-F"，"F":nfHFtf"，"S"infn， 
"direct" :6， 


| 实 
; 例 
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! 
. 
! 
! 
! 
上 


}, 


} 


让 


其 中 : 
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"angle" :66， 
"GR:73 
"title":"Triangle" 


?"X":"F-[[X]+X]+F[+FX]-X"，"”F":"FF"，"S":"X"， 
"direct":-45, 

"angle" :25， 

"iter":6, 

"title":"pPlant" 


"S":"X", "X":"-YF+XFX+FY-", "Y":"+XF-YFY-FX+", 
"direct" :9， 

"angle" :96， 

tr 

"title":"Hilbert" 


"S":"L--F--L--F", "L":"+R-F-R+", "R":"-L+F+L-", 
"direct" :6， 
"angle" :45， 
> 
"title":"Sierpinski 


e direct: 绘图 的 初始 角度 ， 通 过 指定 不 同 的 值 可 以 旋转 整个 图 案 
e angle: 定义 符号 + 和 -旋转 时 的 角度 ， 不 同 的 值 能 产生 完全 不 同 的 图 案 
e iter: 偿 代 次 数 

下 面 的 程序 将 上 述 字典 转换 为 需要 绘制 的 线段 坐标 : 


class L_System(object): 
def _ init (self, rule): 


info = rule['S'] 
for i in range(rule[ 'iter']): 
ninfo = [] 
for c in info: 
if c in rule: 
ninfo.append(rule[c]) 
else: 


ninfo.append(c) 


info = "".join(ninfo) 


self.rule = rule 


self.info = info 


def get_ lines(self): 
from math import sin, cos, pi 
d = self.rule['direct'] 
a = self.rule['angle'] 
p = (6.6，6.6) 


1 = 1.6 

lines = [] 

stack = [] 

for c in self.info: 
Ec 


r=d*pi/ 180 
t = p[8] + l*cos(r), p[1] + l*sin(r) 
lines.append(((p[@], p[1]), (t[e], t[1]))) 
p=t 

elif c == "+": 


3 
例 


d += a 
elif c == "-": 
d-=a 
lif c+- ma 
stack.append((p,d)) 
elif c ==“]": 
p, d = stack[-1] 
del stack[-1] 
return lines 


下 面 的 draw0 完 成 迭代 计算 和 绘图 工作 : 


def draw(ax, rule, iter=None): 
from matplotlib import collections 
if iter!=None: 

rule["iter"] = iter 

lines = L_System(rule).get lines() © 
linecollections = collections.LineCollection(lines, lw=0.7, color="black") ©@ 
ax.add_collection(linecollections, autolim=True) © 
ax.axis("equal") 
ax.set_axis off() 
ax.set_ xlim(ax.datalLim.xmin, ax.datalLim.xmax) 
ax.invert_yaxis() 
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@ 用 L_System 的 get_lines0 计 算出 每 个 线段 的 坐标 之 后 ，@ 创 建 一 个 表示 所 有 线段 集合 所 


LineCollection 对 象 , 日 并 调用 Axes 对 象 的 add_collection0 将 此 线段 集合 添加 进 ax.collections 列表 


图 案 。 


%config InlineBackend.figure_format = 
fig = pl.figure(figsize=(10, 6)) 
fig.patch. set_facecolor("w") 


for i in xrange(6): 
ax = fig.add_subplot(231+i) 
draw(ax, rules[i]) 


中 。 这 样 能 一 次 添加 多 条 线段 ， 提 高 显示 速度 。 图 11-43 是 程序 所 绘制 的 儿 种 L-System 的 分 形 


"png' 


fig.subplots_adjust(left=6,right=1,bottom=6,top=1,wspace=6,hspace=6) 


图 11-43 几 种 L-System 的 迭代 图 案 


11.6.4 分形 山脉 


前 面 介绍 的 分 形 图 案 都 是 严格 按照 指定 的 规则 迭代 生成 的 ， 然 而 自然 界 中 的 山川 、 云 彩 、 
树木 等 都 不 是 精确 的 自 相似 图 形 ， 而 是 在 统计 意义 上 的 自 相似 图 形 。 本 节 将 介绍 几 种 经 典 的 山 


脉 地 形 的 生成 算法 ， 以 及 如 何 用 Python 快速 实现 这 些 算法 。 


1. 一 维 中 点 移 位 法 


让 我 们 从 绘制 一 条 分 形 曲线 开始 。 使 
模拟 山脉 或 海岸 线 的 分 形 形 状 ， 算 法 如 下 : 


(GD 首先 在 X 轴 上 取 两 个 初始 点 A 和 了 B。 


中 点 位 移 算法 (Midpoint Displacement)， 能 够 有 效 地 


O) 找到 A、B 两 点 的 中 点 ， 并 在 立轴 方向 上 进行 随机 移 位 ， 移 位 后 的 点 为 C。 


G) 对 于 线段 AC 和 BC 重复 步骤 (2)。 


每 次 欠 代 时 ， 随 机 移 位 的 最 大 幅度 都 成 比例 地 衰减 。 和 迭代 足够 多 次 之 后 ， 将 所 得 到 的 点 连 
接 起 来 ， 就 得 到 了 一 条 随机 的 分 形 曲线 。 
下 面 是 实现 此 算法 的 源 程序 ， 程 序 所 绘制 的 山脉 曲线 如 图 11-44 所 示 。 


def hillid(n, d): 


绘制 山脉 曲线 ，2**n+1 为 曲线 在 X 轴 上 的 长 度 ，d 为 衰减 系数 


a = np.zeros(2**n+1) © 
scale = 1.9 
for i in xrange(n, 6, -1): © 
s = 2**(i-1) © 
S2 = 2*s 
tmp = a[::s2] 
a[s::s2] += (tmp[:-1] + tmp[1:]) * 6.5 @ 
a[s::s2] += np.random.normal(size=len(tmp)-1, scale=scale) © 
scale *=>d@ 
return a 


pl.figure(figsize=(8,4)) 
for i, d in enumerate([8.4, 8.5, 8.6]): 
np.random.seed(8) @ 
a = hill1id(9, d) 
pl.plot(a, label="d=%s" % d, linewidth=3-i) 
pl.xlim(86, len(a)) 
pl.legend() 


0 100 200 300 400 500 


图 11-44 一 维 分 形 山脉 曲线 ， 衰 减 值 越 小 ， 最 大 幅度 的 衰减 越 快 ， 曲 线 越 平 滑 


程序 中 ，hilld0 计 算 一 维 分 形 山 脉 曲 线 。@ 为 了 运算 方便 ， 我 们 用 一 维 数 组 a 保存 曲线 上 
每 点 的 高 度 ， 而 曲线 上 每 点 的 X 轴 坐标 则 由 数组 的 下 标 决定 。 这 要 求 每 次 计算 中 点 时 所 得 到 的 
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义 轴 坐标 必须 是 整数 。 显 然 当 数组 长 度 为 2+1 时 满足 这 个 要 求 。 

四 由 于 数组 a 的 长 度 为 2+1， 因 此 需要 循环 n 次 才能 够 计算 到 数组 上 所 有 的 点 。 每 次 循环 
时 ， 都 要 对 数组 中 的 某 些 点 计算 中 值 。 例 如 对 于 n=8， 即 数组 长 度 为 257 时 ， 循 环 变量 1 和 数组 
中 需要 计算 中 点 的 下 标 如 表 11-2 所 示 : 


表 11-2 循环 变量 i 与 对 应 的 数组 的 下 标 
需要 计算 中 点 的 数组 下 标 


16、48、80、112、144、176、208、240 


@ 数 组 中 每 次 要 计算 的 中 点 的 下 标 是 一 个 等 差 数 列 ， 起 始 下 标 为 s=2"”"， 间 隔 为 s=2。@ 而 
每 个 中 点 都 由 其 左右 下 标 相差 s 的 两 个 数值 计算 。@ 给 每 个 中 点 一 定 的 随机 位 移 。 这 里 使 用 
normal0 产 生 一 个 正 态 分 布 的 随机 数组 ， 其 期 望 值 为 0， 标准 偏差 为 scale。 这 样 产生 的 山脉 曲线 
才能 既 有 山峰 也 有 山谷 。@ 最 后 将 下 一 次 欠 代 的 标准 偏差 乘 上 系数 d， 因 此 d 越 小 ， 标 准 偏差 
的 衰减 越 快 。 

接 下 来 绘制 d 为 04、0.5、0.6 时 的 山脉 曲线 。@ 这 里 为 了 对 不 同 的 衰减 系数 所 产生 的 曲线 
进行 比较 ， 需 要 保证 每 次 都 使 用 相同 的 随机 数 计算 曲线 ， 因 此 使 用 seed0 指 定 生成 随机 数 的 种 
子 。 在 需要 真正 随机 产生 曲线 时 ， 请 将 此 名 注释 掉 。 


2. 二 维 中 点 移 位 法 


中 点 移 位 法 很 容易 扩展 到 二 维 ， 可 以 用 它 计算 山脉 曲面 ， 算 法 如 图 11-45 所 示 。 左 图 中 ， 
从 白色 圆 点 的 值 ( 值 为 0、2、4 和 8 的 4 个 点 ) 计 算 5 个 用 灰色 圆 点 表示 的 中 值 点 。 边 上 4 个 中 值 
点 的 计算 和 一 维 的 情况 相同 ， 而 正中 间 的 中 值 则 是 4 个 角 上 的 值 的 平均 值 。 

右 图 以 计算 5X5 的 方 格 为 例 ， 演 示 了 每 步 和 迭代 时 所 计算 的 点 。 方 格 中 的 数字 表示 计算 此 
点 的 值 的 迭代 次 数 。 初 期 情况 下 4 个 角 上 的 点 已 知 ， 标 记 它 们 的 迭代 次 数 为 0。 根 据 左 图 的 中 
值 计算 方式 ， 计 算出 标记 为 1 的 5 个 方 格 的 值 。 然 后 对 于 由 人 迭代 0 和 从 代 1 的 点 组 成 的 4 个 方 
块 ， 再 次 进行 中 值 计算 ， 计 算出 所 有 标记 为 2 的 16 个 方 格 的 值 。 
> 4 


yas x 
@ © 9 
个 7 | 下 个 


> 人 < 
1145 二 维 中 点 移 位 法 示意 图 


完整 的 计算 程序 如 下 ， 程 序 的 显示 效果 如 图 11-46 所 示 。 


def hill2d(n, d): 


绘制 山脉 曲面 ， 曲 面 是 一 个 (2**n + 1)*(2**n + 1) 的 图 像 ，d 为 衰减 系数 


from numpy.random import normal 
Size = 2**+n + 1 


scale = 1.6 
a = np.zeros((size, size)) 


for i in xrange(n, 80, -1): 
s = 2**(i-1) 
S2 = Ss*2 
tmp = a[::s2,::s2] 
tmpl1 = (tmp[1:,:] + tmp[:-1,:])*6.5 
tmp2 = (tmp[:,1:] + tmp[:,:-1])*8.5 


tmp3 = (tmpl[:,1:] + tmp1[:,:-1])*0.5 

a[s::s2, ::s2] = tmpl + normal(@, scale, 
a[::s2, s::s2] = tmp2 + normal(@, scale, tmp2.shape) 
a[s::s2,s::s2] = tmp3 + normal(@, scale, tmp3.shape) 


Scale *=d 


return a 


from scpy2 import vtk_scene to _array 
from mayavi import mlab 
from scipy.ndimage.filters import convolve 


np.random. seed(42) 
a = hill2d(8, 8.5) 
a/= np.ptp(a) / (0.5*2**8) 0 
a = convolve(a, np.ones((3,3))/9) © 


mlab.options.offscreen = True 

scene = mlab.figure(size=(866，666)) 
scene.scene.background = 1, 1, 1 
mlab. surf(a) 

img = vtk_scene to _array(scene.scene) 
%array_image img 


例 
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图 1-46 二 维 中 点 移 位 法 计算 山脉 曲面 


hill2d0 程 序 的 算法 和 一 维 的 情况 类 似 ， 这 里 就 不 多 解释 了 。@ 在 计算 出 表示 山脉 曲面 的 二 
维 数组 a 之 后 ， 调 用 npptp0 得 到 数组 a 中 的 最 大 值 和 最 小 值 之 间 的 差 ， 并 将 其 值 放 大 到 数组 形 
状 的 05 倍 ， 以 便 调 用 mlabsurf0 绘 制 曲面 。 思 使 用 SciPy 的 多 维 数组 卷 积 函数 convolve0 对 二 维 
数组 a 进行 平滑 处 理 。 
3. 菱形 方形 算法 


每 次 迭代 都 是 通过 正方 形 四 个 角 上 的 点 的 值 ， 计 算 其 边 上 4 点 和 中 心 点 的 值 。 这 种 计算 方 
法 有 很 多 种 ， 上 节 介 绍 的 是 最 简单 的 一 种 方法 。 但 是 如 果 读 者 放大 它 所 生成 的 曲面 ， 就 会 发 现 
它 上 面 有 一 些 大 大 小 小 的 正方 形 的 痕迹 。 萎 形 方形 算法 (Diamond-square algorithm) 通 过 两 种 中 值 
计算 方法 的 交替 使 用 ， 能 够 有 效 地 消除 这 种 正方 形 痕 迹 ， 算 法 如 图 11-47 所 示 。 
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图 1147 菱形 方形 算法 


首先 如 左 图 所 示 , 通过 正方 形 的 四 个 角 点 计算 位 于 其 中 心 的 点 的 平均 值 。 然 后 如 中 图 所 示 ， 
通过 菱形 的 四 个 角 点 计算 位 于 其 中 心 的 点 的 平均 值 。 图 中 没有 一 个 完整 的 菱形 ， 而 是 4 个 半边 
菱形 。 也 可 以 把 正方 形 平均 看 作 左 上 、 右 上 、 左 下 和 右 下 四 个 方向 上 的 点 的 平均 值 ， 而 萎 形 平 
均 看 作 上 下 左右 四 个 方向 上 的 点 的 平均 值 。 右 图 显示 了 采用 菱形 正方 形 计 算 5X5 的 数组 时 的 
运算 顺序 。 从 标记 为 0 的 方 格 开始 ， 以 方形 平均 计算 标记 为 1s 的 方 格 值 ， 然 后 以 萎 形 平均 计算 
标记 为 1d 的 4 个 方 格 的 值 。 接 下 来 重复 上 面 的 步 又， 方形 平均 计算 2s 方 格 ， 最 后 萎 形 平均 计 
算 2d 方 格 。 

使 用 萎 形 方形 算法 绘制 山脉 曲面 的 程序 如 下 。 观 察 图 11-47( 右 ) 中 的 标记 为 2d 方 格 ， 可 以 
发 现 尧 形 平均 所 对 应 的 方 格 无 法 用 一 个 数组 表示 ， 因 此 程序 中 将 它们 分 为 水 平和 垂直 方向 上 的 
两 个 数组 分 别 计算 。 程 序 中 大 量 使 用 数组 切片 ， 从 而 提高 程序 的 运算 速度 。 如 果 读 者 觉得 较 难 
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理解 ， 可 以 如 下 修改 程序 : 

(GD 注释 掉 随 机 数 部 分 ， 并 在 迭代 之 前 为 数组 的 4 个 角 上 的 元 素 赋值 为 不 为 零 的 数值 。 

O) 使 用 较 小 的 数组 ， 并 且 输 出 每 次 赋值 之 后 的 数组 a 的 值 。 通过 观察 数组 a 的 变化 可 以 帮 
助理 解 程序 和 菱形 方形 算法 。 


def hill2d ds(n, d): 
from numpy.random import normal 
Size = 2**n +1 
scale = 1.06 
a = np.zeros((size, size)) 


for i in xrange(n, 80, -1): 
s = 2**(i-1) 
S2 = 2*s 


# 方形 平均 

t = a[::s2,::s2] 

t2 = (t[:-1,:-1] + t[1:,1:] + t[1:,:-1] + t[:-1,1:])/4 
tmp = a[s::s2,s::s2] 

tmp[...] = t2 + normal(8, scale, tmp.shape) 


buf = a[::s2, ::s2] 


# 鞭 形 平均 分 两 步 ， 分 别 计算 水 平和 垂直 方向 上 的 点 
= a[::s2,s::s2] 

[...] = buf[:,:-1] + buf[:,1:] 

[:-1] += tmp 

[1:] += tmp 

[[8,-1],:] /= 3 # 边 上 是 3 个 值 的 平均 

[1:-1,:] /= 4 # 中 间 的 是 4 个 值 的 平均 

[...] += np.random.normal(86，scale，t.shape) 


中 寺中 寺中 于 人 半 


| 

Eelr= bufls=lss] 4 bf[tLs:] 

[:,:-1] += tmp 

[:,1:] += tmp 

[:,[0,-1]] /= 3 

[:,1:-1] /= 4 

[...] += np.random.normal(8, scale, t.shape) 


直路 r 寺 ddd 人 


Scale += d 


return a 


们 将 
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np.random.seed(42) 

a = hill2d ds(8, 8.5) 

a/= np.ptp(a) / (8.5*2**8) 

a = convolve(a, np.ones((3,3))/9) 


mlab.options.offscreen = True 

scene = mlab.figure(size=(866，666)) 
scene.scene.background = 1, 1, 1 
mlab. surf(a) 

img = vtk_scene to array(scene.scene) 
%array_image img 


图 11-48 使 用 萎 形 方形 算法 计算 山脉 曲面 


